BotOf Tech
返回首页Agent 评测开始标准化:Kaggle SAE + Axiom Write Evals 给了什么新范式

Agent 评测开始标准化:Kaggle SAE + Axiom Write Evals 给了什么新范式

·1 分钟阅读·

Agent 这条线一直有个老问题:demo 很容易惊艳,但一上线就不稳。最近三个月比较关键的变化,是评测终于开始标准化。

我觉得最值得一起看的,是两条路线:

  • Kaggle Standardized Agent Exams
  • Axiom 的 Write Evals Skill

它们代表了两种互补能力。

第一条路线:统一基准

Kaggle 推出的 Standardized Agent Exams 很重要,因为它在尝试回答一个长期缺位的问题:

不同 agent,到底能不能在同一张卷子上比较?

这类统一考试的价值在于:

  • 把宣传口径压回到可复现实验
  • 让大家更容易看出推理、规划、执行和安全的真实差异
  • 给团队一个最低共识基线

没有统一基准时,所有系统都能剪出漂亮 demo;有了统一考试,很多问题就藏不住。

第二条路线:产品团队自己生成评测

但统一考试还不够。因为真正上线时,你更关心的是:

  • 你的数据
  • 你的用户任务
  • 你的风险边界

所以 Axiom 的 write-evals skill 才有意义。它把 agent 评测从“等别人出 benchmark”变成“自己持续生成产品特定 evals”。

这两条路线应该怎么组合

我建议的顺序是:

1. 用统一基准看大盘能力

先知道你的 agent 大概处在哪个区间。

2. 用产品特定 eval 看真实表现

围绕自己的工作流生成:

  • 成功率
  • 审批率
  • 回滚率
  • 成本
  • 延迟
  • 风险触发情况

3. 把 eval 写进交付流程

不要等上线前才临时跑一次。更稳的做法是把 eval 放进:

  • 提交前
  • 发布前
  • 版本回归
  • prompt / skill 变更后

我的判断

接下来 Agent 产品会很快分成两类:

  • 一类继续靠 demo 讲故事
  • 一类开始用标准考试 + 自定义 eval 持续迭代

真正能长期活下来的,大概率是后者。

来源