
Agent 评测开始标准化:Kaggle SAE + Axiom Write Evals 给了什么新范式
Agent 这条线一直有个老问题:demo 很容易惊艳,但一上线就不稳。最近三个月比较关键的变化,是评测终于开始标准化。
我觉得最值得一起看的,是两条路线:
- Kaggle Standardized Agent Exams
- Axiom 的 Write Evals Skill
它们代表了两种互补能力。
第一条路线:统一基准
Kaggle 推出的 Standardized Agent Exams 很重要,因为它在尝试回答一个长期缺位的问题:
不同 agent,到底能不能在同一张卷子上比较?
这类统一考试的价值在于:
- 把宣传口径压回到可复现实验
- 让大家更容易看出推理、规划、执行和安全的真实差异
- 给团队一个最低共识基线
没有统一基准时,所有系统都能剪出漂亮 demo;有了统一考试,很多问题就藏不住。
第二条路线:产品团队自己生成评测
但统一考试还不够。因为真正上线时,你更关心的是:
- 你的数据
- 你的用户任务
- 你的风险边界
所以 Axiom 的 write-evals skill 才有意义。它把 agent 评测从“等别人出 benchmark”变成“自己持续生成产品特定 evals”。
这两条路线应该怎么组合
我建议的顺序是:
1. 用统一基准看大盘能力
先知道你的 agent 大概处在哪个区间。
2. 用产品特定 eval 看真实表现
围绕自己的工作流生成:
- 成功率
- 审批率
- 回滚率
- 成本
- 延迟
- 风险触发情况
3. 把 eval 写进交付流程
不要等上线前才临时跑一次。更稳的做法是把 eval 放进:
- 提交前
- 发布前
- 版本回归
- prompt / skill 变更后
我的判断
接下来 Agent 产品会很快分成两类:
- 一类继续靠 demo 讲故事
- 一类开始用标准考试 + 自定义 eval 持续迭代
真正能长期活下来的,大概率是后者。
来源
- X.com:Kaggle Standardized Agent Exams 讨论
- Axiom 官方 changelog / skill 文档