
Claude 4.6 登顶基准测试:Anthropic 双雄称霸
测试结果
Artificial Analysis 发布最新智能指数排名:
| 排名 | 模型 | 智能指数 |
|---|---|---|
| 1 | Claude Opus 4.6 | 92.3 |
| 2 | Claude Sonnet 4.6 | 89.7 |
| 3 | GPT-5 | 88.1 |
| 4 | Gemini Ultra 2.0 | 87.5 |
| 5 | DeepSeek V3 Pro | 86.9 |
历史性时刻:Anthropic 首次同时占据前两名。
Sonnet 4.6 的特殊之处
编程能力
在 TerminalBench(终端操作基准)和 GDPval-AA(通用代码生成基准)中,Sonnet 4.6 甚至略超 Opus 4.6:
- TerminalBench: Sonnet 87.2 vs Opus 86.8
- GDPval-AA: Sonnet 91.1 vs Opus 90.5
Token 消耗
Sonnet 4.6 的输出 token 用量约为 Sonnet 4.5 最大努力模式的 3 倍。更多的 token = 更详细的推理过程 = 更准确的结果。
对开发者的意义
- Claude Code 更强了:底层模型升级直接提升编程体验
- 性价比方案:Sonnet 编程能力接近 Opus,价格低 5 倍
- 选模型策略:简单任务用 Haiku,编程用 Sonnet,复杂推理用 Opus
来源: @ArtificialAnlys 的基准测试报告