AI-VideoAssistant/docs/content/concepts/assistants.md

# 助手概念详解

助手（Assistant）是 Realtime Agent Studio（RAS）中最核心的配置单元，也是控制台和 API 对外暴露能力的基本对象。

---

## 什么是助手

一个助手代表一个可接入、可测试、可发布的实时 AI 入口。它回答三个问题：

- **它是谁**：角色、语气、目标、限制、开场方式、静默时候的行动（比如静默时候的询问 Ask-on-Idle）
- **它能做什么**：语言模型能力、语音模型能力（ASR、TTS、用户打断灵敏度（Barge-in）、语句端点设置（End-of-Utterance））、知识库、记忆、工具（Webhook、客户端工具、系统工具、MCP）、输出模式
- **它在一次会话中如何运行**：通过 `assistant_id` 载入配置，并在运行时接收动态变量、对话时候的上下文更新

如果把引擎理解为“运行时”，那么助手就是“运行时要执行的那份定义”。

## 助手由哪些部分组成

| 层次 | 负责什么 | 典型内容 |
|------|----------|----------|
| **身份层** | 定义助手角色和交互风格 | 系统提示词、限制、开场白、静默处理 |
| **模型层** | 决定理解与生成能力 | LLM、ASR、TTS、引擎类型、用户打断、语句端点 |
| **能力层** | 扩展知识和执行能力 | 知识库、工具、记忆 |
| **会话层** | 决定运行时上下文如何注入 | `assistant_id`、动态变量 |

## 身份层

助手首先是一个“被约束的角色”，而不是一段孤立的模型调用。

### 系统提示词

系统提示词定义助手的角色、任务、边界和风格，是所有能力组合的基础。

| 要素 | 作用 | 示例 |
|------|------|------|
| **角色** | 告诉模型“自己是谁” | 客服助手、销售顾问、培训教练 |
| **任务** | 指定要完成的结果 | 解答咨询、收集信息、调用工具处理业务 |
| **限制** | 明确哪些事不能做 | 不承诺超权限优惠、不输出未经验证的结论 |
| **风格** | 约束回答节奏和措辞 | 简洁、口语化、每次 2-3 句 |

### 开场白

一个助手还要定义会话应该如何开始，以及用户静默时候如何处理，包括：

- **首轮模式**：助手先说、用户先说或者机器先说
- **开场白**：使用固定开场白或者AI生成开场白

### 静默处理

用户静默时候是否询问用户是否在线

## 模型层

模型决定助手的基础理解、推理和表达能力，但不是助手定义的全部。

- **LLM** 决定对话推理与文本生成能力
- **ASR** 决定语音输入如何被实时转写
- **TTS** 决定文本回复如何转成可播放语音
- **引擎类型** 决定运行链路是分段可控还是端到端低延迟
- **VAD** 声音活动模型，判断用户是否在说话
- **EOU** 语句端点模型，判断用户是否完成一段语句等待回复
- **Barge In** 由于用户声音活动或者手动请求，是否打断助手当前的回复

## 能力层

### 知识库

知识库用于补充私有领域知识，让助手回答超出基础模型常识之外的问题。

```mermaid
flowchart LR
    Question[用户问题] --> Retrieval[检索]
    Retrieval --> KB[(知识库)]
    KB --> Context[相关片段]
    Context --> LLM[LLM]
    LLM --> Answer[回答]
```

知识库适合承载政策、产品资料、流程说明、FAQ 和内部文档，而不是把所有业务知识堆进系统提示词。

### 工具

工具让助手从“会说”变成“能做事”。

```mermaid
flowchart LR
    User[用户] --> Assistant[助手]
    Assistant --> Tool[工具 / 外部系统]
    Tool --> Assistant
    Assistant --> User
```

适合用工具处理的任务包括：订单查询、预约、外部搜索、写入业务系统、调用客户端能力等。

## 会话层

### `assistant_id` 的作用

在接入层面，客户端通过 `assistant_id` 指定要加载哪一个助手。引擎据此读取默认配置，并把同一份助手定义应用到当前会话。

### 会话生命周期

```mermaid
stateDiagram-v2
    [*] --> Connecting: WebSocket 连接
    Connecting --> Started: session.started
    Started --> Active: config.resolved / 开始对话
    Active --> Active: 多轮交互
    Active --> Stopped: session.stop 或连接关闭
    Stopped --> [*]
```

一次会话通常会沉淀以下信息：

- 用户与助手消息时间线
- 音频流、转写结果和模型输出
- 工具调用记录与中间事件
- 自定义 metadata、渠道和业务上下文


### 动态变量与会话级覆盖

助手的默认配置不需要为每个用户都重新复制一份。RAS 提供两种常见的运行时注入方式：

- **动态变量**：在提示词中使用 `{{variable}}` 占位，并在会话开始时传入具体值
- **会话级覆盖**：仅对当前会话覆盖部分运行时参数，不回写助手基线配置

```json
{
  "type": "session.start",
  "metadata": {
    "dynamicVariables": {
      "company_name": "ABC 公司",
      "customer_name": "张三",
      "tier": "VIP"
    }
  }
}
```

这种设计让你既能复用标准助手，又能在每次接入时注入渠道、用户、订单或上下文信息。

## 相关文档

- [配置选项](assistants/configuration.md) - 查看助手在控制台和运行时有哪些配置层
- [提示词指南](assistants/prompts.md) - 设计角色、任务、限制和语气
- [测试调试](assistants/testing.md) - 验证助手质量并定位问题