BotOf TechAI / IoT / Full-Stack / 植物养护
返回首页Agent 进企业以后,最先要补的不是模型,而是控制平面

Agent 进企业以后,最先要补的不是模型,而是控制平面

企业里最危险的 AI 叙事,是把 agent 描述成“会自己干活的数字员工”,然后跳过一个现实问题:数字员工也需要身份、权限、岗位边界、操作日志、主管审核和离职回收。

当 AI 只是回答问题时,风险主要是答错。当 AI agent 能调用工具、读写文件、发邮件、改 CRM、跑脚本、查数据库、提交代码、触发退款时,风险变成了系统风险。它不再只是模型问题,而是控制平面问题。

这个控制平面决定:agent 能看什么、能做什么、何时必须停下、谁负责审核、错误如何回滚、成本如何计量、经验如何沉淀。

为什么 prompt 不是核心边界

很多早期 agent 项目依赖 prompt 管边界:告诉模型“不要做高风险动作”“遇到不确定要询问”“不要泄露数据”。这当然有必要,但远远不够。

原因很简单:prompt 是软约束,企业权限是硬约束。一个生产 agent 必须假设模型会误解、会忘记、会被诱导、会遇到上下文缺口,也会因为工具返回异常而进入奇怪路径。

真正的企业控制平面至少要包含八个对象:

对象需要回答的问题
Agent 身份这个 agent 代表谁运行?是个人、团队还是服务账号?
权限范围它能读哪些数据,能写哪些系统,能否跨租户?
工具目录哪些工具可用,参数 schema 是什么,是否可组合?
上下文边界哪些文档、客户、项目、邮件可以进入 prompt?
风险等级哪些动作必须人工确认,哪些动作永远禁止?
评估机制如何知道 agent 这次做对了?
审计日志谁触发、模型看了什么、调用了什么、写了什么?
生命周期agent 如何上线、版本化、暂停、回滚、删除?

没有这些对象,企业 agent 就会变成“能力很强但没人敢放权”的演示产品。

评估基础设施是生产门槛

Microsoft 2026 Work Trend Index 里有一个非常实用的判断:agent 执行越多,人类评估基础设施越重要。一次坏输出可以人工改掉,但当坏输出在流程里规模化传播,风险会复合。

这也是 Morgan Stanley 案例最值得学的地方。它不是直接让模型服务顾问,而是先建立 eval:真实问题集、专家评分、回归测试、检索质量调优、会议摘要评估。金融服务里的 AI 之所以能被顾问大规模采用,不是因为模型会说金融话,而是因为企业建立了“可被信任的验证过程”。

我建议企业把 eval 分成四层:

eval 层检查内容例子
输入 eval用户意图、权限、上下文是否正确是否把个人客户数据错误带入团队 agent
中间过程 eval检索、工具选择、参数是否合理是否调用了错误 CRM 对象
输出 eval答案、摘要、计划是否准确是否遗漏会议 action item
行为 eval写入、发送、提交、退款等动作是否合规是否越权发送客户邮件

传统软件测试主要验证代码路径。agent eval 要验证“模型 + 工具 + 数据 + 人”的组合路径。

工具调用的真实难点:野生用户行为

很多 benchmark 会把 tool calling 简化成“给定 API schema,模型生成正确参数”。但真实企业用户不会这样说话。

WildToolBench 这类研究指出,真实用户行为包含组合任务、跨轮隐式意图、临时改口、闲聊和任务指令混杂等问题。评测 57 个模型时,没有模型在该基准上达到 15% 以上准确率。这不一定说明模型“很差”,而是说明真实 tool-use 远比静态函数调用复杂。

企业系统里常见的失败路径包括:

  • 用户先问分析,下一轮突然要求执行;
  • 用户说“就按上次那个客户的条件来”,但上下文里有多个客户;
  • 用户在一个请求里混合查询、修改和发送;
  • 工具返回部分失败,模型继续假装成功;
  • agent 错把闲聊当成操作确认;
  • 多个系统字段名字相似,参数映射出错。

所以控制平面必须把 tool calling 设计成可中断、可回滚、可确认的流程,而不是一次性函数调用。

一个企业 Agent 控制平面草图

这里有几个关键设计:

第一,工具不直接暴露给模型,而是经过 Tool Broker。Tool Broker 负责 schema、参数校验、幂等、权限和回滚。

第二,风险门控不应该只靠模型判断。退款、删除、发邮件、改权限、提交代码、转账、上传文件等动作应有硬规则。

第三,评估结果要回写 playbook。否则每次错误都只是一次客服工单,不会变成系统能力。

成本控制也是控制平面

agent 比 chatbot 贵,不是因为单次模型更贵,而是因为一次任务会展开成多次检索、推理、工具调用、重试和验证。

企业需要把成本作为一等对象:

  • 每个任务记录 token、模型、工具耗时、重试次数;
  • 高价值任务允许用强模型,低价值任务自动路由到小模型或规则;
  • 重复任务用缓存、模板和脚本;
  • 长流程设置预算,超过预算自动降级或请求确认;
  • 统计哪些 agent 真正带来节省,哪些只是制造调用量。

没有成本层,agent 很容易在试点时看起来聪明,上规模后变成不可控账单。

可靠性不只靠更强模型

近期一些企业级 agent 研究开始从“单模型能力”转向“系统可靠性”。例如 Six Sigma Agent 论文提出用任务分解、多模型采样和共识机制降低错误;Salesforce 的 compound AI 部署研究关注多模型 fan-out、冷启动传播、动态扩缩容和尾延迟;安全场景里的 CHASE 则把 LLM 与确定性安全工具组合,避免模型单独承担恶意包分析。

这些方向背后的共同结论是:企业可靠性来自架构,而不是来自相信模型下一代会变完美。

更强模型可以提高上限,但控制平面决定下限。

结论

企业部署 agent,第一阶段会问“它能不能做事”。第二阶段会马上问“它能不能被管理”。

真正能进入生产的 agent,不是最会聊天的,而是最容易被纳入企业治理的:有身份、有权限、有工具边界、有评估、有审计、有成本记录、有人工接管、有回滚机制。

未来企业 AI 平台的竞争,表面上看是模型和应用,底层会越来越像控制平面之争。谁能把 agent 当成可管理的企业实体,而不是一个神秘对话框,谁才更接近真实落地。

来源与延伸阅读