Claude 4.6 登顶基准测试：Anthropic 双雄称霸

Claude 4.6 登顶基准测试：Anthropic 双雄称霸

2026-02-20·1 分钟阅读·

测试结果

Artificial Analysis 发布最新智能指数排名：

排名	模型	智能指数
1	Claude Opus 4.6	92.3
2	Claude Sonnet 4.6	89.7
3	GPT-5	88.1
4	Gemini Ultra 2.0	87.5
5	DeepSeek V3 Pro	86.9

历史性时刻：Anthropic 首次同时占据前两名。

Sonnet 4.6 的特殊之处

编程能力

在 TerminalBench（终端操作基准）和 GDPval-AA（通用代码生成基准）中，Sonnet 4.6 甚至略超 Opus 4.6：

TerminalBench: Sonnet 87.2 vs Opus 86.8
GDPval-AA: Sonnet 91.1 vs Opus 90.5

Token 消耗

Sonnet 4.6 的输出 token 用量约为 Sonnet 4.5 最大努力模式的 3 倍。更多的 token = 更详细的推理过程 = 更准确的结果。

对开发者的意义

Claude Code 更强了：底层模型升级直接提升编程体验
性价比方案：Sonnet 编程能力接近 Opus，价格低 5 倍
选模型策略：简单任务用 Haiku，编程用 Sonnet，复杂推理用 Opus

来源: @ArtificialAnlys 的基准测试报告

← 返回所有文章