- Revised site name and description for clarity and detail. - Updated navigation structure to better reflect the organization of content. - Improved changelog entries for better readability and consistency. - Migrated assistant configuration and prompt guidelines to new documentation paths. - Enhanced core concepts section to clarify the roles and capabilities of assistants and engines. - Streamlined workflow documentation to provide clearer guidance on configuration and usage.
108 lines
3.7 KiB
Markdown
108 lines
3.7 KiB
Markdown
# 引擎架构
|
|
|
|
RAS 提供两类实时运行时:**Pipeline 引擎** 和 **Realtime 引擎**。本页只回答一个问题:你的助手应该跑在哪种引擎上。
|
|
|
|
---
|
|
|
|
## 先记住这条判断标准
|
|
|
|
- 如果你优先考虑 **可控性、可替换性、成本管理、工具 / 知识 / 流程编排**,优先选 **Pipeline 引擎**
|
|
- 如果你优先考虑 **超低延迟、更自然的端到端语音体验**,优先选 **Realtime 引擎**
|
|
|
|
## 两类引擎的区别
|
|
|
|
| 维度 | Pipeline 引擎 | Realtime 引擎 |
|
|
|------|---------------|---------------|
|
|
| **交互路径** | VAD → ASR → TD → LLM → TTS | 端到端实时模型 |
|
|
| **可控性** | 高,每个环节可替换 | 中,更多依赖模型供应商 |
|
|
| **延迟** | 中等,通常由多环节累加 | 低,链路更短 |
|
|
| **能力编排** | 更适合接入工具、知识库、工作流 | 也可接工具,但流程可控性较弱 |
|
|
| **成本结构** | 可按环节优化 | 往往更依赖单一供应商定价 |
|
|
| **适合场景** | 企业客服、流程型助手、电话场景、知识问答 | 高拟真语音助手、多模态入口、高自然度体验 |
|
|
|
|
## Pipeline 引擎是什么
|
|
|
|
Pipeline 引擎把实时语音拆成多个明确环节:
|
|
|
|
```mermaid
|
|
flowchart LR
|
|
VAD[VAD] --> ASR[ASR]
|
|
ASR --> TD[回合检测]
|
|
TD --> LLM[LLM]
|
|
LLM --> TTS[TTS]
|
|
```
|
|
|
|
这样做的好处是:
|
|
|
|
- 你可以分别选择 ASR、LLM、TTS 的供应商
|
|
- 你可以单独优化某一个环节,而不是整体替换
|
|
- 工具、知识库和工作流更容易插入到链路中
|
|
|
|
代价是:
|
|
|
|
- 延迟会累加
|
|
- 系统集成更复杂
|
|
- 你需要同时管理多类外部依赖
|
|
|
|
## Realtime 引擎是什么
|
|
|
|
Realtime 引擎直接连接端到端实时模型,让模型同时处理输入、理解、生成与打断。
|
|
|
|
```mermaid
|
|
flowchart LR
|
|
Input[音频 / 视频 / 文本输入] --> RT[Realtime Model]
|
|
RT --> Output[音频 / 文本输出]
|
|
RT --> Tools[工具]
|
|
```
|
|
|
|
这样做的好处是:
|
|
|
|
- 链路更短,延迟更低
|
|
- 全双工与打断通常更自然
|
|
- 接入路径更简单,适合强调体验的入口
|
|
|
|
代价是:
|
|
|
|
- 更依赖特定模型供应商
|
|
- 对 ASR / TTS / 回合检测的独立控制更弱
|
|
- 成本和能力边界受实时模型限制更大
|
|
|
|
## 怎么选
|
|
|
|
### 适合选择 Pipeline 的情况
|
|
|
|
- 你要接入特定 ASR 或 TTS 供应商
|
|
- 你需要知识库、工具、工作流形成稳定业务流程
|
|
- 你更在意可解释性、观测和分段优化
|
|
- 你需要把成本按环节精细控制
|
|
|
|
### 适合选择 Realtime 的情况
|
|
|
|
- 你把“自然对话感”放在首位
|
|
- 你需要更低的首响和更顺滑的打断体验
|
|
- 你可以接受对某个模型供应商的依赖
|
|
- 你的场景更接近语音助手、陪练、虚拟角色或多模态入口
|
|
|
|
## 简化决策表
|
|
|
|
| 场景 | 推荐引擎 | 原因 |
|
|
|------|----------|------|
|
|
| 企业客服 / 电话机器人 | Pipeline | 可控、可审计、易接工具与业务系统 |
|
|
| 知识问答 / 业务流程助手 | Pipeline | 更适合接知识库与工作流 |
|
|
| 高拟真语音助手 | Realtime | 更自然、更低延迟 |
|
|
| 多模态入口 | Realtime | 端到端处理音频 / 视频 / 文本 |
|
|
| 预算敏感场景 | Pipeline | 更容易逐环节优化成本 |
|
|
|
|
## 智能打断的差异
|
|
|
|
两类引擎都支持打断,但边界不同:
|
|
|
|
- **Pipeline**:由 VAD / 回合检测与 TTS 停止逻辑协同实现,行为更可控
|
|
- **Realtime**:更多由实时模型内部完成,体验更自然,但可解释性更低
|
|
|
|
## 继续阅读
|
|
|
|
- [Pipeline 引擎](pipeline-engine.md) - 查看分段链路、延迟构成与配置示例
|
|
- [Realtime 引擎](realtime-engine.md) - 查看端到端实时模型的交互路径
|
|
- [系统架构](../overview/architecture.md) - 从服务边界理解引擎在整体系统中的位置
|