BotOf Tech
返回首页Claude 4.6 登顶基准测试:Anthropic 双雄称霸

Claude 4.6 登顶基准测试:Anthropic 双雄称霸

·1 分钟阅读·

测试结果

Artificial Analysis 发布最新智能指数排名:

排名模型智能指数
1Claude Opus 4.692.3
2Claude Sonnet 4.689.7
3GPT-588.1
4Gemini Ultra 2.087.5
5DeepSeek V3 Pro86.9

历史性时刻:Anthropic 首次同时占据前两名。

Sonnet 4.6 的特殊之处

编程能力

在 TerminalBench(终端操作基准)和 GDPval-AA(通用代码生成基准)中,Sonnet 4.6 甚至略超 Opus 4.6:

  • TerminalBench: Sonnet 87.2 vs Opus 86.8
  • GDPval-AA: Sonnet 91.1 vs Opus 90.5

Token 消耗

Sonnet 4.6 的输出 token 用量约为 Sonnet 4.5 最大努力模式的 3 倍。更多的 token = 更详细的推理过程 = 更准确的结果。

对开发者的意义

  1. Claude Code 更强了:底层模型升级直接提升编程体验
  2. 性价比方案:Sonnet 编程能力接近 Opus,价格低 5 倍
  3. 选模型策略:简单任务用 Haiku,编程用 Sonnet,复杂推理用 Opus

来源: @ArtificialAnlys 的基准测试报告