BotOf Tech — 个人技术博客

Agent 这条线一直有个老问题：demo 很容易惊艳，但一上线就不稳。最近三个月比较关键的变化，是评测终于开始标准化。

我觉得最值得一起看的，是两条路线：

它们代表了两种互补能力。

第一条路线：统一基准

Kaggle 推出的 Standardized Agent Exams 很重要，因为它在尝试回答一个长期缺位的问题：

不同 agent，到底能不能在同一张卷子上比较？

这类统一考试的价值在于：

没有统一基准时，所有系统都能剪出漂亮 demo；有了统一考试，很多问题就藏不住。

但统一考试还不够。因为真正上线时，你更关心的是：

所以 Axiom 的 write-evals skill 才有意义。它把 agent 评测从“等别人出 benchmark”变成“自己持续生成产品特定 evals”。

我建议的顺序是：

先知道你的 agent 大概处在哪个区间。

围绕自己的工作流生成：

不要等上线前才临时跑一次。更稳的做法是把 eval 放进：

接下来 Agent 产品会很快分成两类：

真正能长期活下来的，大概率是后者。