Update documentation for assistant configuration and interaction models

- Corrected phrasing in the introduction of RAS as an open-source alternative. - Added new documentation sections for voice AI and voice agents. - Enhanced the flowchart for assistant components to include detailed configurations. - Updated terminology for engine types to clarify distinctions between Pipeline and Realtime engines. - Introduced a new section on user utterance endpoints (EoU) to explain detection mechanisms and configurations.
2026-03-06 14:38:59 +08:00
parent 7e0b777923
commit 65ae2287d5
4 changed files with 64 additions and 68 deletions
--- a/docs/content/concepts/index.md
+++ b/docs/content/concepts/index.md
@@ -19,8 +19,8 @@ flowchart TB
        end
        
        subgraph Engine["交互引擎"]
-            Pipeline[管线式引擎]
-            Multimodal[多模态引擎]
+            Pipeline[Pipeline引擎]
+            Multimodal[Realtime引擎]
        end
        
        Session[会话 Session]
@@ -47,24 +47,12 @@ flowchart TB
 | 配置项 | 说明 |
 |-------|------|
 | **名称** | 助手的显示名称 |
-| **系统提示词** | 定义助手角色、行为、限制 |
-| **LLM 模型** | 选择用于生成回复的大语言模型 |
-| **ASR 模型** | 选择用于语音识别的模型 |
-| **TTS 声音** | 选择用于语音合成的音色 |
-| **工具** | 配置助手可调用的外部工具 |
-| **知识库** | 关联的知识库（用于 RAG） |
-
-### 助手生命周期
-
-```mermaid
-stateDiagram-v2
-    [*] --> Draft: 创建
-    Draft --> Draft: 编辑配置
-    Draft --> Published: 发布
-    Published --> Draft: 取消发布
-    Published --> Published: 更新配置
-    Published --> [*]: 删除
-```
+| **指令配置** | 使用提示词指令定义助手角色、行为、限制 |
+| **语音设置** | 包括语音识别模型，语音合成模型 |
+| **交互设置** | 包括用户打断机器人的灵敏度，检测用户语句结束的灵敏度 |
+| **工具配置** | 配置助手可调用的外部工具 |
+| **知识配置** | 关联的知识库（用于 RAG） |
+| **Webhooks** | 用于订阅助手的活动 |

 ---

@@ -96,7 +84,7 @@ stateDiagram-v2

 ---

-## 管线式引擎 vs 多模态引擎
+## Pipeline引擎 vs Realtime引擎

 RAS 支持两种引擎架构，适用于不同场景。

@@ -119,7 +107,7 @@ RAS 支持两种引擎架构，适用于不同场景。
 - 延迟较高（累加延迟）
 - 需要协调多个服务

-### 实时交互引擎与多模态 (Realtime / Multimodal)
+### 实时交互引擎 (Realtime)

 实时交互引擎可连接 **OpenAI Realtime**、**Gemini Live**、**Doubao 实时交互引擎** 等，同样可连接工具。使用端到端模型直接处理：

@@ -183,6 +171,28 @@ sequenceDiagram
    Note over Engine: 处理新输入
 ```

+## 用户语句端点（EoU End-of-Utterance）
+
+**用户语句端点（EoU）** 指系统判断「用户已经说完」的时刻。在管线式引擎中，只有检测到 EoU 后，才会把当前轮次的转写文本送给 LLM 并触发回复，避免用户短暂停顿时就误判为说完。
+
+### 检测方式
+
+EoU 基于 **VAD（声音活动检测）** 的输出：在用户**连续静音**达到设定时长后触发一次 EoU。若静音期间用户再次说话，静音计时会重置，因此句间短暂停顿不会触发 EoU，只有用户真正停止说话后才触发。
+
+| 概念 | 说明 |
+|------|------|
+| **静音阈值** | 连续静音超过该时长（毫秒）即判定为 EoU，对应配置如 `vad_eou_threshold_ms`（默认约 800ms） |
+| **最短语音** | 若语音过短（如杂音），不触发 EoU，避免误判 |
+| **一次一轮** | 每轮用户输入只产生一次 EoU，之后需重新检测语音再静音才会再次触发 |
+
+### 在管线中的位置
+
+```
+用户语音 → [VAD] → [EoU 检测] → 静音达阈值 → 文本送 LLM → 回复 → [TTS]
+```
+
+助手配置中的 **「检测用户语句结束的灵敏度」** 即对应 EoU 的静音阈值：阈值越小，越容易判定为「说完」，响应更快但易在用户思考或短暂停顿时误触发；阈值越大，更稳但响应会稍慢。
+
 ---

 ## 工具调用 (Tool Calling)
@@ -196,7 +206,7 @@ sequenceDiagram
 | 类型 | 说明 | 示例 |
 |------|------|------|
 | **Webhook** | 调用外部 HTTP API | 查询订单、预约日程 |
-| **客户端工具** | 由客户端执行的操作 | 打开页面、显示表单 |
+| **客户端工具** | 由客户端执行的操作 | 获取客户端地理位置、请求用户同意、打开客户端相机 |
 | **内建工具** | 平台提供的工具 | 代码执行、计算器 |

 ### 工具调用流程