BotOf Tech — 技术与植物养护笔记

现在谈企业 AI，最容易犯的错误是把它理解成一个工具采购问题：买 Copilot、接 ChatGPT Enterprise、建几个内部 GPT，然后等员工自己把效率变出来。

这条路会有短期热闹，但很难产生可持续收益。因为大多数企业工作并不是“一个人问模型，一个人拿答案”。它通常由知识库、审批流、CRM、会议、表格、邮件、权限、合规、客户上下文和历史决策共同构成。AI 真正落地时，改变的不是某个页面，而是工作系统的结构。

从 2026 年近期公开资料看，头部企业的做法正在出现一个共同方向：AI 不再只是“智能助手”，而是被放进一个可治理、可评估、可复用的运行层。这个运行层有点像企业自己的 AI 操作系统。

先看几个已经发生的项目

Morgan Stanley 的财富管理 AI 项目很有代表性。它不是简单做一个金融问答机器人，而是把 GPT-4 嵌入顾问的知识检索、研究摘要、会议纪要和 CRM 跟进流程。更关键的是，Morgan Stanley 把 eval 当成上线机制：每个用例都要通过真实问题集、专家反馈、回归测试和质量控制。公开案例里提到，AI @ Morgan Stanley Assistant 在财富管理顾问团队中达到 98% 以上采用率，文档覆盖也从约 20% 提升到 80%。

Moderna 的路径则更像“全员 AI 转型”。它让员工大规模使用 ChatGPT Enterprise，并在两个月内形成 750 个内部 GPT。真正值得注意的不是“GPT 数量多”，而是 GPT 被放进了研发、临床数据分析、合同总结、政策查询、投资者沟通和制造等业务过程。Dose ID 这类临床试验数据分析助手还要求引用来源、生成图表，并由人类团队保持最终判断。

Microsoft 2026 Work Trend Index 给出了更宏观的数据：在 20,000 名使用 AI 的工作者调查中，AI 的影响更多取决于组织环境，而不是个人技巧。报告还提到 Microsoft 365 生态里的活跃 agents 同比增长 15 倍，大企业里增长更高。换句话说，企业 AI 的关键问题已经从“员工会不会 prompt”转向“组织有没有准备好吸收 AI 带来的新工作方式”。

Databricks 最近推出 Genie One，也指向同一件事：企业要的不是一个外部聊天机器人，而是能理解内部数据上下文、连接 Google Drive、Jira、Slack、SharePoint 等系统、把对话变成可复用工作流的业务 co-worker。这里的护城河不是模型本身，而是数据上下文和治理层。

真正的落地点通常在五层

把这些项目拆开看，企业 AI 不是一个单层技术，而是五层系统的组合。

层级	它解决什么	典型项目
知识层	把散落文档、制度、研究、合同变成可问可追溯的知识资产	金融顾问知识库、政策问答、研发资料检索
工作流层	把 AI 放进真实任务链，而不是停在回答阶段	会议纪要进 CRM、合同摘要进审批、客服建议进工单
决策层	帮人做分析、比较、模拟和建议，但保留人类责任	临床剂量分析、销售预测、投资研究、供应链补货
执行层	让 agent 调用工具、更新系统、触发流程	自动建单、生成报告、拉取数据、发送草稿
治理层	管理权限、审计、质量、成本和风险	eval、日志、红队、安全策略、人工确认

很多失败的企业 AI 项目，只做了第一层：把内部文档接到 RAG，然后上线一个问答框。它能演示，但很难改变业务结果。因为员工真正花时间的地方，往往不是“找答案”，而是把答案变成下一步动作，并为结果负责。

组织重构比模型选择更难

如果说 2023-2024 年的企业 AI 重点是“哪些任务可以被 AI 辅助”，那么 2026 年的问题更像是：

哪些工作应该由人设定意图，AI 执行初稿？
哪些工作可以由 agent 连续执行，但每一步都需要日志？
哪些工作必须保持人类审批？
哪些成功经验要变成团队级 playbook？
哪些 AI 行为应该进入绩效、培训和管理制度？

Microsoft 的报告把这种组织称为 Learning System：工作产生信号，信号被捕获，捕获的经验再反过来重塑流程。这个说法很重要，因为它把 AI 从“工具效率”提升到了“组织学习速度”。

传统软件系统通常把流程固化下来。AI 系统则会把流程暴露出来：哪些制度模糊、哪些数据不一致、哪些审批只是形式、哪些知识只存在资深员工脑子里。这些暴露出来的东西，才是企业 AI 真正难的部分。

一个更实际的落地架构

如果一家企业准备做 AI 落地，我不建议从“大模型平台”开始，也不建议从“全员 prompt 培训”开始。更稳的起点是选择一个高频、高痛点、可验证的工作链。

这个架构里，模型只是中间一环。前面要有意图识别和上下文组装，后面要有权限、确认、日志和评估。缺任何一块，都会让 AI 停留在“有趣但不可托付”的阶段。

企业 AI 的新指标

过去企业软件看 DAU、席位数、流程覆盖率。AI 项目还要加几类指标。

指标	为什么重要
任务完成率	判断 AI 是否真的进入业务链条，而不是只被聊天
人工修改率	判断输出质量和可用性
可追溯率	判断回答和动作能否回到来源、模型、工具和操作者
例外处理率	判断系统遇到不确定情况时是否会升级给人
单任务成本	判断 agent 多步调用后是否还有经济性
组织复用率	判断一个团队的经验能不能被另一个团队继承

一个企业 AI 项目如果只报告“员工问了多少次”，基本还在早期。更成熟的报告应该能回答：哪些流程变短了，哪些质量指标提高了，哪些错误减少了，哪些人类判断被保留了，哪些 agent 行为被限制了。

我的判断

企业 AI 落地会越来越少像“装一个工具”，越来越多像“改一套操作系统”。

短期最容易成功的场景，仍然是知识密集、流程清晰、风险可控的领域：金融顾问支持、内部政策问答、合同摘要、客服辅助、销售研究、代码审查、数据分析、运营报告。

但长期价值不在这些单点，而在企业是否能把 AI 变成可复用的工作层：每一次任务执行都会留下证据，每一次人类修改都会进入评估，每一次成功流程都会沉淀成模板，每一次失败都会改进权限和边界。

企业 AI 的核心不是“让每个人更会用模型”，而是让企业本身开始学习如何和模型一起工作。

来源与延伸阅读

Microsoft Work Trend Index 2026：Agents, human agency, and the opportunity for every organization
https://www.microsoft.com/en-us/worklab/work-trend-index/agents-human-agency-and-the-opportunity-for-every-organization
OpenAI：Morgan Stanley uses AI evals to shape the future of financial services
https://openai.com/index/morgan-stanley/
OpenAI：Moderna and OpenAI partner to accelerate treatments
https://openai.com/index/moderna/
ITPro：Databricks launches AI co-worker, Genie One
https://www.itpro.com/technology/artificial-intelligence/databricks-launches-ai-co-worker-genie-one
arXiv：AI in the Enterprise: How People Use M365 Copilot Chat
https://arxiv.org/abs/2605.23958