Files
AI-VideoAssistant/docs/content/concepts/engines.md
Xin Wang b300b469dc Update documentation for Realtime Agent Studio with enhanced content and structure
- Revised site name and description for clarity and detail.
- Updated navigation structure to better reflect the organization of content.
- Improved changelog entries for better readability and consistency.
- Migrated assistant configuration and prompt guidelines to new documentation paths.
- Enhanced core concepts section to clarify the roles and capabilities of assistants and engines.
- Streamlined workflow documentation to provide clearer guidance on configuration and usage.
2026-03-09 05:38:43 +08:00

3.7 KiB

引擎架构

RAS 提供两类实时运行时:Pipeline 引擎Realtime 引擎。本页只回答一个问题:你的助手应该跑在哪种引擎上。


先记住这条判断标准

  • 如果你优先考虑 可控性、可替换性、成本管理、工具 / 知识 / 流程编排,优先选 Pipeline 引擎
  • 如果你优先考虑 超低延迟、更自然的端到端语音体验,优先选 Realtime 引擎

两类引擎的区别

维度 Pipeline 引擎 Realtime 引擎
交互路径 VAD → ASR → TD → LLM → TTS 端到端实时模型
可控性 高,每个环节可替换 中,更多依赖模型供应商
延迟 中等,通常由多环节累加 低,链路更短
能力编排 更适合接入工具、知识库、工作流 也可接工具,但流程可控性较弱
成本结构 可按环节优化 往往更依赖单一供应商定价
适合场景 企业客服、流程型助手、电话场景、知识问答 高拟真语音助手、多模态入口、高自然度体验

Pipeline 引擎是什么

Pipeline 引擎把实时语音拆成多个明确环节:

flowchart LR
    VAD[VAD] --> ASR[ASR]
    ASR --> TD[回合检测]
    TD --> LLM[LLM]
    LLM --> TTS[TTS]

这样做的好处是:

  • 你可以分别选择 ASR、LLM、TTS 的供应商
  • 你可以单独优化某一个环节,而不是整体替换
  • 工具、知识库和工作流更容易插入到链路中

代价是:

  • 延迟会累加
  • 系统集成更复杂
  • 你需要同时管理多类外部依赖

Realtime 引擎是什么

Realtime 引擎直接连接端到端实时模型,让模型同时处理输入、理解、生成与打断。

flowchart LR
    Input[音频 / 视频 / 文本输入] --> RT[Realtime Model]
    RT --> Output[音频 / 文本输出]
    RT --> Tools[工具]

这样做的好处是:

  • 链路更短,延迟更低
  • 全双工与打断通常更自然
  • 接入路径更简单,适合强调体验的入口

代价是:

  • 更依赖特定模型供应商
  • 对 ASR / TTS / 回合检测的独立控制更弱
  • 成本和能力边界受实时模型限制更大

怎么选

适合选择 Pipeline 的情况

  • 你要接入特定 ASR 或 TTS 供应商
  • 你需要知识库、工具、工作流形成稳定业务流程
  • 你更在意可解释性、观测和分段优化
  • 你需要把成本按环节精细控制

适合选择 Realtime 的情况

  • 你把“自然对话感”放在首位
  • 你需要更低的首响和更顺滑的打断体验
  • 你可以接受对某个模型供应商的依赖
  • 你的场景更接近语音助手、陪练、虚拟角色或多模态入口

简化决策表

场景 推荐引擎 原因
企业客服 / 电话机器人 Pipeline 可控、可审计、易接工具与业务系统
知识问答 / 业务流程助手 Pipeline 更适合接知识库与工作流
高拟真语音助手 Realtime 更自然、更低延迟
多模态入口 Realtime 端到端处理音频 / 视频 / 文本
预算敏感场景 Pipeline 更容易逐环节优化成本

智能打断的差异

两类引擎都支持打断,但边界不同:

  • Pipeline:由 VAD / 回合检测与 TTS 停止逻辑协同实现,行为更可控
  • Realtime:更多由实时模型内部完成,体验更自然,但可解释性更低

继续阅读