BotOf Tech — 技术与植物养护笔记

企业 AI 落地有一个分水岭：它到底只是生成一段文本，还是推动业务闭环往前走了一步。

如果 AI 只是写邮件、总结会议、生成草稿，它当然有价值，但很难证明对损益表的影响。更关键的场景是：AI 识别客户问题，调出上下文，给出可执行建议，更新系统，完成工单，或者把购物车推进到支付前一步。这种闭环一旦跑通，AI 才不再是“提高个人效率”的工具，而是业务系统的一部分。

近期几个方向特别清楚：客服、零售、金融、反欺诈、企业内部运营。它们的共同点不是“都用了大模型”，而是都把模型接进了动作链。

客服：从回答问题到处理事务

客服是目前最容易看到 ROI 的场景之一。原因很简单：输入高频、流程清楚、历史数据多、结果可衡量。用户不是来聊天的，而是要解决配送、账单、退货、额度、密码、解释产品等具体问题。

Nubank 2026 年论文展示了一个 100M+ 用户规模的客服 agent 研发框架。它的重点不是“模型多强”，而是 evaluation-driven development：结构化上下文、人工参与的 prompt 迭代、LLM judge、离线模拟和线上 A/B 验证一起工作。论文提到在卡片配送场景中，AI transactional NPS 和自助率相对旧版本有明显提升，并且离线模拟指标与线上结果有较强相关性。

阿里巴巴的售后客服实验则给了另一个角度：AI 助手能缩短问题识别时间和会话时长，提高主观服务质量，但对客观质量指标并不总是同样显著。更细的发现是，低绩效客服受益最大，顶尖客服反而可能因为多任务倾向增加而出现质量下滑。

这说明客服 AI 不是把人替掉那么简单。更现实的设计是：

对新手和低熟练员工，AI 提供诊断和话术建议；
对复杂问题，AI 做资料整理和下一步建议；
对高风险事务，AI 只做辅助，不自动承诺；
对顶尖客服，AI 应减少干扰，而不是强行接管。

零售：从商品搜索到购物意图执行

Walmart 与 Google Gemini 的合作值得关注，因为它把 AI 购物从“推荐商品”推向了“在对话里建购物车和下单”。这类场景的核心是意图闭环。

传统电商搜索处理的是关键词：用户搜“咖啡机”，平台返回商品列表。AI 购物处理的是任务：用户说“给我准备一个办公室咖啡角，预算 300 美元以内，适合 10 个人”，系统要理解预算、人数、场景、耗材、替代品、配送、库存和偏好，然后生成购物车。

这背后至少需要四个能力：

能力	零售里的含义
意图识别	判断用户是在浏览、比较、补货、送礼还是准备采购
商品知识	理解规格、兼容性、评价、库存、价格和替代关系
约束满足	预算、时间、地址、品牌偏好、过敏或禁忌
动作授权	加入购物车、修改数量、发起支付前确认

这里的难点不是生成一段推荐文案，而是 AI 是否能把“模糊需求”变成“可执行订单”，同时不给用户带来误购、过度推荐或隐私风险。

金融：知识检索和客户关系的低摩擦化

金融业的 AI 项目通常比互联网产品更慢，但一旦跑通，黏性很强。Morgan Stanley 的顾问助手就是典型例子：顾问面对客户时，需要快速访问研究、流程、产品和市场观点。过去知识散在大量文档里，AI 把检索和摘要变成低摩擦动作。

JPMorgan 的 LLM Suite 也显示了类似方向：先把生成式 AI 放进可控内部平台，再逐步扩展到员工写作、总结、翻译、分析和流程效率。公开报道提到，JPMorgan 已经把内部生成式 AI 平台扩展到大量员工，并围绕运营、客户服务、欺诈检测和投顾支持推进用例。

金融场景的关键不是“回答得像专家”，而是：

能否引用来源；
能否遵守合规边界；
能否区分信息整理和投资建议；
能否记录顾问是否采纳、修改或拒绝 AI 结果；
能否在客户关系系统里产生后续动作。

AI 在金融里的价值，往往不是直接替代判断，而是让专业判断更快到达客户现场。

反欺诈和风控：AI 不是一个模型，而是事件系统

欺诈检测是另一个容易被误解的领域。传统规则能抓高频、明显、已知模式，但对账户接管、商业邮件诈骗、洗钱网络、 mule account、异常会话等复杂行为不够灵活。近期关于银行 AI security agent 的研究，普遍把风控看成多流事件系统：交易流、会话流、关系图、速度规则、序列模型和人工分析助手共同工作。

这类系统的关键不是让 LLM 直接判定“这是诈骗”。更稳的做法是：

用统计规则抓确定性异常；
用序列模型学习账户历史行为；
用图模型识别资金网络和账户关系；
用 LLM 生成 case summary、解释证据、协助 analyst；
对自动冻结、通知客户、升级调查做严格权限控制。

企业风控里的 AI 落地，本质是把“机器判断”变成“可审计的风险工作流”。

一张业务闭环图

这个闭环里，AI 的价值不只在 D。B、C、E、H、I 同样重要。很多企业项目失败，是因为只买了 D：一个模型输出层。它能说得很好，但没有上下文、没有动作、没有确认、没有指标。

哪些场景优先级最高

我会把企业 AI 应用场景按“闭环程度”和“风险程度”分成四类。

场景	闭环程度	风险	落地建议
内部知识问答	低到中	低	适合快速起步，但要加来源和反馈
客服辅助	中	中	优先做建议和摘要，再逐步做自动处理
零售购物 agent	高	中	必须加入用户确认和退款/误购处理
金融/医疗决策辅助	中	高	只做证据整理和人类决策增强
风控/安全 analyst	高	高	LLM 做解释和编排，关键动作走规则和审批
企业运营报表	中	低到中	与 BI、数据权限和指标口径绑定

真正值得投的项目，不一定是最炫的，而是能满足三个条件：输入稳定、结果可测、动作可控。

结论

企业 AI 的落地正在从“文档问答”和“内容生成”走向“业务闭环”。客服、金融、零售和风控之所以走在前面，不是因为它们更喜欢 AI，而是因为它们天然有事件、有流程、有结果指标。

未来企业选 AI 项目，不应先问“能不能用大模型做”，而应先问四个更具体的问题：

AI 能识别什么业务意图？
它能访问哪些可信上下文？
它能推动哪个系统动作？
它的结果如何被评估和复盘？

只有这些问题回答清楚，AI 才会从一个聪明的旁白，变成业务系统的一部分。

来源与延伸阅读

arXiv：Building Customer Support AI Agents at 100M-User Scale
https://arxiv.org/abs/2606.08867
arXiv：Generative AI in Action: Field Experimental Evidence from Alibaba's Customer Service Operations
https://arxiv.org/abs/2603.29888
Axios：Walmart expands AI-powered shopping with Google Gemini
https://www.axios.com/2026/01/11/walmart-google-gemini-ai-shopping
OpenAI：Morgan Stanley uses AI evals to shape the future of financial services
https://openai.com/index/morgan-stanley/
TechRadar：Google Cloud and the agentic enterprise
https://www.techradar.com/pro/the-agentic-enterprise-is-happening-right-here-right-now-google-cloud-hails-the-ai-age-for-businesses-everywhere
arXiv：An AI Security Agent for Banking
https://arxiv.org/abs/2606.17555