实时语音 AI 助手的架构设计

实时语音 AI 助手的架构设计

2026-03-15·1 分钟阅读·

系统架构

用户设备 → WebSocket (Opus) → Voice Server → LLM → TTS → WebSocket → 用户设备
                                    ↕
                              VAD + ASR + Memory

核心组件

语音活动检测 (VAD)

使用 Silero ONNX 模型，在端侧实时检测语音段落的开始和结束，避免将静音发送到 ASR。

语音识别 (ASR)

支持 OpenAI Whisper API 和本地 FunASR/SenseVoice，根据部署环境灵活切换。

对话编排 (LangGraph)

使用 LangGraph StateGraph 管理多轮对话状态，支持工具调用（搜索、天气等）。

语音合成 (TTS)

Edge-TTS 提供低延迟的流式语音合成，支持多种音色。

部署模式

完整版：7 个 Docker 容器，含搜索和网页抓取
精简版：仅语音服务，2vCPU/4GB 即可运行

← 返回所有文章