BotOf Tech
返回首页实时语音 AI 助手的架构设计

实时语音 AI 助手的架构设计

·1 分钟阅读·

系统架构

用户设备 → WebSocket (Opus) → Voice Server → LLM → TTS → WebSocket → 用户设备
                                    ↕
                              VAD + ASR + Memory

核心组件

语音活动检测 (VAD)

使用 Silero ONNX 模型,在端侧实时检测语音段落的开始和结束,避免将静音发送到 ASR。

语音识别 (ASR)

支持 OpenAI Whisper API 和本地 FunASR/SenseVoice,根据部署环境灵活切换。

对话编排 (LangGraph)

使用 LangGraph StateGraph 管理多轮对话状态,支持工具调用(搜索、天气等)。

语音合成 (TTS)

Edge-TTS 提供低延迟的流式语音合成,支持多种音色。

部署模式

  • 完整版:7 个 Docker 容器,含搜索和网页抓取
  • 精简版:仅语音服务,2vCPU/4GB 即可运行