BotOf Tech — 技术与植物养护笔记

很多 AI 应用最初是一个 chat endpoint，后来慢慢变成 RAG，再加图片、PDF、表格、视频帧。模型没换几次，基础设施却已经从“推理服务”变成“数据处理和推理混合系统”。

多模态和 RAG 的核心问题是：token 只是最后一公里。在进入 LLM 前，系统已经搬运了大量字节、图片、索引和中间特征。

RAG 的生产链路

一个稍微靠谱的 RAG 不只是 vector search：

每一段都可能跑在 Kubernetes 上，也都需要独立伸缩。Embedding 是 GPU/CPU 混合负载，OCR 可能吃 CPU 或专用模型，reranker 可能是小 GPU 模型，LLM 推理是大 GPU 负载。把它们塞进同一个 Pod，只会让扩容和排错变复杂。

视觉语言模型通常包含视觉编码器、投影层和语言模型。图片输入会带来几个基础设施问题：

如果业务允许，图片解析、OCR、caption、embedding 可以先异步化。不要所有图片都实时塞进最贵的大模型。

Embedding 请求通常短、密集、可批量，适合高吞吐。Reranker 请求更像小模型推理，延迟敏感但显存需求低。它们不该和聊天大模型争同一组 H100。

常见资源池：

这样做的好处是成本清楚。Embedding 量暴涨时，不会直接挤掉聊天推理；向量库 rebuild 时，也不会影响 LLM 的 SLA。

RAG 最大的隐性问题是索引版本。文档更新、chunk 策略变化、embedding 模型升级、reranker 调参，都会让检索结果变化。

索引任务应该带版本：

dataset_version + parser_version + chunker_version + embedding_model + index_params

线上查询也要记录命中的 index version。否则用户说“昨天能搜到，今天搜不到”，平台很难复现。

Kubernetes 里可以用 Job/Workflow 跑索引，用队列限制并发，用对象存储保存中间结果，用事件触发增量索引。不要让在线 Pod 顺手做重索引。

长上下文模型让 RAG 变简单了吗？只简化了一部分。它可以减少 aggressive chunking，但没有消除检索和排序。原因是成本。

把 200 页 PDF 全塞进 prompt，技术上也许能跑，经济上不一定合理。更好的做法是：

一个生产多模态 RAG 平台可以拆成：

每个 namespace 配不同 GPU 队列和限额。LLM 推理池要保护，不能被索引重建任务抢走。

多模态和 RAG 的难点不在模型调用，而在数据和推理之间的工程边界。边界清楚，系统才有机会稳定。