BotOf Tech — 技术与植物养护笔记

企业里最危险的 AI 叙事，是把 agent 描述成“会自己干活的数字员工”，然后跳过一个现实问题：数字员工也需要身份、权限、岗位边界、操作日志、主管审核和离职回收。

当 AI 只是回答问题时，风险主要是答错。当 AI agent 能调用工具、读写文件、发邮件、改 CRM、跑脚本、查数据库、提交代码、触发退款时，风险变成了系统风险。它不再只是模型问题，而是控制平面问题。

这个控制平面决定：agent 能看什么、能做什么、何时必须停下、谁负责审核、错误如何回滚、成本如何计量、经验如何沉淀。

为什么 prompt 不是核心边界

很多早期 agent 项目依赖 prompt 管边界：告诉模型“不要做高风险动作”“遇到不确定要询问”“不要泄露数据”。这当然有必要，但远远不够。

原因很简单：prompt 是软约束，企业权限是硬约束。一个生产 agent 必须假设模型会误解、会忘记、会被诱导、会遇到上下文缺口，也会因为工具返回异常而进入奇怪路径。

真正的企业控制平面至少要包含八个对象：

对象	需要回答的问题
Agent 身份	这个 agent 代表谁运行？是个人、团队还是服务账号？
权限范围	它能读哪些数据，能写哪些系统，能否跨租户？
工具目录	哪些工具可用，参数 schema 是什么，是否可组合？
上下文边界	哪些文档、客户、项目、邮件可以进入 prompt？
风险等级	哪些动作必须人工确认，哪些动作永远禁止？
评估机制	如何知道 agent 这次做对了？
审计日志	谁触发、模型看了什么、调用了什么、写了什么？
生命周期	agent 如何上线、版本化、暂停、回滚、删除？

没有这些对象，企业 agent 就会变成“能力很强但没人敢放权”的演示产品。

评估基础设施是生产门槛

Microsoft 2026 Work Trend Index 里有一个非常实用的判断：agent 执行越多，人类评估基础设施越重要。一次坏输出可以人工改掉，但当坏输出在流程里规模化传播，风险会复合。

这也是 Morgan Stanley 案例最值得学的地方。它不是直接让模型服务顾问，而是先建立 eval：真实问题集、专家评分、回归测试、检索质量调优、会议摘要评估。金融服务里的 AI 之所以能被顾问大规模采用，不是因为模型会说金融话，而是因为企业建立了“可被信任的验证过程”。

我建议企业把 eval 分成四层：

eval 层	检查内容	例子
输入 eval	用户意图、权限、上下文是否正确	是否把个人客户数据错误带入团队 agent
中间过程 eval	检索、工具选择、参数是否合理	是否调用了错误 CRM 对象
输出 eval	答案、摘要、计划是否准确	是否遗漏会议 action item
行为 eval	写入、发送、提交、退款等动作是否合规	是否越权发送客户邮件

传统软件测试主要验证代码路径。agent eval 要验证“模型 + 工具 + 数据 + 人”的组合路径。

工具调用的真实难点：野生用户行为

很多 benchmark 会把 tool calling 简化成“给定 API schema，模型生成正确参数”。但真实企业用户不会这样说话。

WildToolBench 这类研究指出，真实用户行为包含组合任务、跨轮隐式意图、临时改口、闲聊和任务指令混杂等问题。评测 57 个模型时，没有模型在该基准上达到 15% 以上准确率。这不一定说明模型“很差”，而是说明真实 tool-use 远比静态函数调用复杂。

企业系统里常见的失败路径包括：

用户先问分析，下一轮突然要求执行；
用户说“就按上次那个客户的条件来”，但上下文里有多个客户；
用户在一个请求里混合查询、修改和发送；
工具返回部分失败，模型继续假装成功；
agent 错把闲聊当成操作确认；
多个系统字段名字相似，参数映射出错。

所以控制平面必须把 tool calling 设计成可中断、可回滚、可确认的流程，而不是一次性函数调用。

一个企业 Agent 控制平面草图

这里有几个关键设计：

第一，工具不直接暴露给模型，而是经过 Tool Broker。Tool Broker 负责 schema、参数校验、幂等、权限和回滚。

第二，风险门控不应该只靠模型判断。退款、删除、发邮件、改权限、提交代码、转账、上传文件等动作应有硬规则。

第三，评估结果要回写 playbook。否则每次错误都只是一次客服工单，不会变成系统能力。

成本控制也是控制平面

agent 比 chatbot 贵，不是因为单次模型更贵，而是因为一次任务会展开成多次检索、推理、工具调用、重试和验证。

企业需要把成本作为一等对象：

每个任务记录 token、模型、工具耗时、重试次数；
高价值任务允许用强模型，低价值任务自动路由到小模型或规则；
重复任务用缓存、模板和脚本；
长流程设置预算，超过预算自动降级或请求确认；
统计哪些 agent 真正带来节省，哪些只是制造调用量。

没有成本层，agent 很容易在试点时看起来聪明，上规模后变成不可控账单。

可靠性不只靠更强模型

近期一些企业级 agent 研究开始从“单模型能力”转向“系统可靠性”。例如 Six Sigma Agent 论文提出用任务分解、多模型采样和共识机制降低错误；Salesforce 的 compound AI 部署研究关注多模型 fan-out、冷启动传播、动态扩缩容和尾延迟；安全场景里的 CHASE 则把 LLM 与确定性安全工具组合，避免模型单独承担恶意包分析。

这些方向背后的共同结论是：企业可靠性来自架构，而不是来自相信模型下一代会变完美。

更强模型可以提高上限，但控制平面决定下限。

结论

企业部署 agent，第一阶段会问“它能不能做事”。第二阶段会马上问“它能不能被管理”。

真正能进入生产的 agent，不是最会聊天的，而是最容易被纳入企业治理的：有身份、有权限、有工具边界、有评估、有审计、有成本记录、有人工接管、有回滚机制。

未来企业 AI 平台的竞争，表面上看是模型和应用，底层会越来越像控制平面之争。谁能把 agent 当成可管理的企业实体，而不是一个神秘对话框，谁才更接近真实落地。

来源与延伸阅读

Microsoft Work Trend Index 2026
https://www.microsoft.com/en-us/worklab/work-trend-index/agents-human-agency-and-the-opportunity-for-every-organization
OpenAI：Morgan Stanley eval-driven AI adoption
https://openai.com/index/morgan-stanley/
arXiv：Benchmarking LLM Tool-Use in the Wild
https://arxiv.org/abs/2604.06185
arXiv：The Six Sigma Agent
https://arxiv.org/abs/2601.22290
arXiv：Scalable Inference Architectures for Compound AI Systems
https://arxiv.org/abs/2604.25724
arXiv：CHASE: LLM Agents for Dissecting Malicious PyPI Packages
https://arxiv.org/abs/2601.06838