
devv.ai 生产环境 RAG 系统构建实战
背景
devv.ai 是一个面向开发者的 AI 搜索引擎,底层核心就是 RAG。作者分享了从 0 到生产环境的全过程。
生产级 RAG 架构
用户查询
↓
查询理解(意图识别 + 关键词提取)
↓
多路检索
├── 向量检索(语义匹配)
├── 全文检索(关键词匹配)
└── 知识图谱(实体关联)
↓
结果融合 + 重排序
↓
Prompt 组装
↓
LLM 生成
↓
引用验证 + 格式化
关键经验
1. 切分策略决定上限
- 代码文件按函数/类切分,不是固定长度
- Markdown 按标题层级切分
- 保留上下文重叠(overlap 20%)
2. 嵌入模型选择
在编程领域测试过多个模型:
| 模型 | 编程场景 MRR | 延迟 |
|---|---|---|
| OpenAI ada-002 | 0.72 | 50ms |
| Cohere embed-v3 | 0.78 | 45ms |
| BGE-large | 0.75 | 30ms |
| Jina v2 | 0.80 | 35ms |
3. 评估方法论
不要只看"感觉答得不错"。 建立量化评估体系:
- 召回率:检索的 Top-K 中包含正确答案的比例
- MRR:正确答案的排名倒数均值
- 忠实度:生成答案与检索内容的一致性
- 有害性:是否生成了检索内容中没有的信息
4. 缓存策略
相似查询命中缓存,减少 60% 的向量检索调用。使用查询向量的 cosine similarity > 0.95 作为缓存命中阈值。
来源: @tisoga Jiayuan Zhang 的实战分享