
实时语音 AI 助手的架构设计
系统架构
用户设备 → WebSocket (Opus) → Voice Server → LLM → TTS → WebSocket → 用户设备
↕
VAD + ASR + Memory
核心组件
语音活动检测 (VAD)
使用 Silero ONNX 模型,在端侧实时检测语音段落的开始和结束,避免将静音发送到 ASR。
语音识别 (ASR)
支持 OpenAI Whisper API 和本地 FunASR/SenseVoice,根据部署环境灵活切换。
对话编排 (LangGraph)
使用 LangGraph StateGraph 管理多轮对话状态,支持工具调用(搜索、天气等)。
语音合成 (TTS)
Edge-TTS 提供低延迟的流式语音合成,支持多种音色。
部署模式
- 完整版:7 个 Docker 容器,含搜索和网页抓取
- 精简版:仅语音服务,2vCPU/4GB 即可运行