Update documentation for Realtime Agent Studio with enhanced content and structure

- Revised site name and description for clarity and detail. - Updated navigation structure to better reflect the organization of content. - Improved changelog entries for better readability and consistency. - Migrated assistant configuration and prompt guidelines to new documentation paths. - Enhanced core concepts section to clarify the roles and capabilities of assistants and engines. - Streamlined workflow documentation to provide clearer guidance on configuration and usage.
2026-03-09 05:38:43 +08:00
parent 65ae2287d5
commit b300b469dc
34 changed files with 1776 additions and 2981 deletions
--- a/docs/content/quickstart/dashboard.md
+++ b/docs/content/quickstart/dashboard.md
@@ -1,233 +1,44 @@
-# 资源库配置详解
+# 资源准备清单

-本页面详细介绍资源库中各类资源的配置方法和最佳实践。
+本页保留原“资源库配置详解”链接，但在本轮文档收敛后，它只承担快速开始阶段的资源核对职责。

-## 语音识别 (ASR) 配置
+## 你至少要准备什么

-### 支持的接口类型
+在创建第一个助手前，至少确认以下三类资源都已经可用：

-| 接口类型 | 说明 |
-|---------|------|
-| OpenAI Compatible | 兼容 OpenAI 语音识别 API 格式的服务 |
+| 资源 | 为什么需要 | 正式说明页 |
+|------|------------|------------|
+| **LLM 模型** | 负责理解与生成回复 | [LLM 模型](../customization/models.md) |
+| **ASR 资源** | 负责把语音输入转写为文本 | [语音识别](../customization/asr.md) |
+| **TTS 声音资源** | 负责把文本回复合成为语音 | [声音资源](../customization/voices.md) |

-### 配置字段说明
+## 上手前自检

-| 字段 | 必填 | 说明 |
-|-----|-----|------|
-| 模型名称 | 是 | 自定义显示名称，便于识别 |
-| 接口类型 | 是 | 当前支持 OpenAI Compatible |
-| 语言 | 是 | 识别语言：中文/英文/多语言 |
-| Model Name | 否 | API 请求中的 model 参数 |
-| Base URL | 是 | API 服务地址 |
-| API Key | 是 | 服务认证密钥 |
-| 热词 | 否 | 逗号分隔的专有名词列表 |
-| 标点增强 | 否 | 是否自动添加标点 |
-| 文本归一化 | 否 | 规范化数字、日期等格式 |
-| 启用 | 否 | 是否在选择列表中显示 |
+### LLM

-### 推荐配置示例
+- 已配置供应商、模型名称、Base URL 和凭证
+- 已明确该模型用于文本生成、嵌入还是重排
+- 已准备保守的默认参数，而不是先追求极端效果

-**硅基流动 SenseVoice**
+### ASR

-```
-模型名称：SenseVoice 中文
-Model Name：FunAudioLLM/SenseVoiceSmall
-Base URL：https://api.siliconflow.cn/v1
-语言：中文
-```
+- 已确认目标语言与模型匹配
+- 已准备必要热词或专有名词词表
+- 已能用固定样本测试识别准确率和延迟

-### 测试识别效果
+### TTS

-1. 在 ASR 列表中找到目标模型
-2. 点击 **试听识别** 按钮
-3. 选择以下测试方式之一：
-   - **上传文件**：拖拽或选择音频文件
-   - **麦克风录音**：点击录音按钮开始录制
-4. 点击 **开始识别** 查看结果
-5. 检查识别文本、延迟和置信度
+- 已选择主音色，并完成至少一次试听
+- 已确认该声音适合实时对话，而不是仅适合离线播报
+- 已为默认语速、音量等参数设定初始值

---
+## 不在本页展开的内容

-## 大语言模型 (LLM) 配置
+字段说明、供应商差异、参数建议和最佳实践已经分别收敛到正式能力页：

-### 支持的模型类型
+- [LLM 模型](../customization/models.md)
+- [语音识别](../customization/asr.md)
+- [声音资源](../customization/voices.md)
+- [TTS 参数](../customization/tts.md)

-| 类型 | 用途 |
-|-----|------|
-| 文本 (text) | 对话生成，用于助手核心交互 |
-| 嵌入 (embedding) | 向量化，用于知识库检索 |
-| 重排 (rerank) | 结果重排序，优化检索结果 |
-
-### 配置字段说明
-
-| 字段 | 必填 | 说明 |
-|-----|-----|------|
-| 厂商 | 是 | 当前支持 OpenAI Compatible |
-| 模型类型 | 是 | 文本/嵌入/重排 |
-| 模型名称 | 是 | 自定义显示名称 |
-| 模型标识 | 否 | API 请求中的 model 参数 |
-| Base URL | 是 | API 服务地址 |
-| API Key | 是 | 服务认证密钥 |
-| 温度 | 否 | 输出随机性 (0-2)，仅文本模型 |
-| 上下文长度 | 否 | 最大 token 数 |
-| 启用 | 否 | 是否在选择列表中显示 |
-
-### 推荐配置示例
-
-**OpenAI GPT-4o Mini**
-
-```
-模型名称：GPT-4o Mini
-模型类型：文本
-模型标识：gpt-4o-mini
-Base URL：https://api.openai.com/v1
-温度：0.7
-上下文长度：8192
-```
-
-**硅基流动 Qwen**
-
-```
-模型名称：Qwen2.5-7B
-模型类型：文本
-模型标识：Qwen/Qwen2.5-7B-Instruct
-Base URL：https://api.siliconflow.cn/v1
-温度：0.7
-```
-
-### 测试模型效果
-
-1. 在 LLM 列表中找到目标模型
-2. 点击 **预览** 按钮
-3. 配置测试参数：
-   - **System Prompt**：系统提示词
-   - **User Message**：测试消息
-   - **Temperature**：温度参数
-   - **Max Tokens**：最大输出长度
-4. 点击 **开始预览** 查看模型回复
-5. 检查回复内容、延迟和 token 用量
-
---
-
-## 声音资源 (TTS) 配置
-
-### 支持的接口类型
-
-| 接口类型 | 说明 |
-|---------|------|
-| OpenAI Compatible | 兼容 OpenAI TTS API 格式的服务 |
-| DashScope | 阿里云 DashScope 语音合成服务 |
-
-### 配置字段说明
-
-| 字段 | 必填 | 说明 |
-|-----|-----|------|
-| 厂商 | 是 | OpenAI Compatible 或 DashScope |
-| 声音名称 | 是 | 自定义显示名称 |
-| 模型 | 是 | TTS 模型标识 |
-| 声音 ID | 是 | 音色标识符 |
-| Base URL | 否 | API 服务地址 |
-| API Key | 是 | 服务认证密钥 |
-| 语速 | 否 | 说话速度 (0.5-2.0)，默认 1.0 |
-| 增益 | 否 | 音量调节 (-10 to 10 dB) |
-| 音调 | 否 | 声音高低 (-12 to 12) |
-| 性别 | 否 | 声音性别标签 |
-| 语言 | 否 | 声音语言标签 |
-| 备注 | 否 | 声音特点描述 |
-
-### 推荐配置示例
-
-**硅基流动 CosyVoice**
-
-```
-厂商：OpenAI Compatible
-声音名称：Anna 中文女声
-模型：FunAudioLLM/CosyVoice2-0.5B
-声音 ID：FunAudioLLM/CosyVoice2-0.5B:anna
-Base URL：https://api.siliconflow.cn/v1
-语速：1.0
-性别：女
-语言：中文
-```
-
-**DashScope TTS**
-
-```
-厂商：DashScope
-声音名称：Cherry
-模型：qwen3-tts-flash-realtime
-声音 ID：Cherry
-Base URL：wss://dashscope.aliyuncs.com/api-ws/v1/realtime
-语速：1.0
-```
-
-### CosyVoice 可用音色
-
-| 音色 ID | 性别 | 风格 |
-|--------|-----|------|
-| alex | 男 | 成熟稳重 |
-| anna | 女 | 温柔亲切 |
-| bella | 女 | 活泼甜美 |
-| benjamin | 男 | 年轻活力 |
-| charles | 男 | 专业商务 |
-| claire | 女 | 清新自然 |
-| david | 男 | 沉稳大气 |
-| diana | 女 | 优雅知性 |
-
-### 试听声音效果
-
-1. 在声音列表中找到目标声音
-2. 点击 **播放** 按钮
-3. 系统会自动合成一段试听语音
-4. 检查声音效果是否符合预期
-
-### 克隆声音
-
-如需使用自定义声音：
-
-1. 点击 **克隆声音** 按钮
-2. 上传参考音频文件（WAV/MP3）
-3. 填写声音名称和描述
-4. 点击 **开始克隆**
-
-!!! note "声音克隆说明"
-    声音克隆功能需要 TTS 服务支持。上传的参考音频建议为 10-30 秒的清晰人声录音。
-
---
-
-## 配置最佳实践
-
-### 资源命名规范
-
-建议使用清晰的命名规范，便于后续管理：
-
-```
-[厂商/模型]-[用途/语言]-[特点]
-```
-
-示例：
- `SF-SenseVoice-中文`
- `OpenAI-GPT4o-对话`
- `SF-CosyVoice-Anna女声`
-
-### 多环境管理
-
-如果有测试和生产环境，建议：
-
-1. 为不同环境创建独立的资源配置
-2. 在名称中标注环境，如 `GPT4o-Prod`、`GPT4o-Test`
-3. 通过"启用"开关控制可见性
-
-### 成本优化
-
-| 场景 | 推荐配置 |
-|-----|---------|
-| 开发测试 | 使用低成本模型，如 GPT-4o-mini |
-| 生产环境 | 根据质量要求选择合适模型 |
-| 高并发 | 考虑使用本地部署的开源模型 |
-
---
-
-## 下一步
-
-资源配置完成后，请返回 [快速开始](index.md) 继续创建助手。
+准备完成后，请回到 [快速开始](index.md) 继续创建助手。