AI-VideoAssistant/docs/content/quickstart/dashboard.md

# 资源库配置详解

本页面详细介绍资源库中各类资源的配置方法和最佳实践。

## 语音识别 (ASR) 配置

### 支持的接口类型

| 接口类型 | 说明 |
|---------|------|
| OpenAI Compatible | 兼容 OpenAI 语音识别 API 格式的服务 |

### 配置字段说明

| 字段 | 必填 | 说明 |
|-----|-----|------|
| 模型名称 | 是 | 自定义显示名称，便于识别 |
| 接口类型 | 是 | 当前支持 OpenAI Compatible |
| 语言 | 是 | 识别语言：中文/英文/多语言 |
| Model Name | 否 | API 请求中的 model 参数 |
| Base URL | 是 | API 服务地址 |
| API Key | 是 | 服务认证密钥 |
| 热词 | 否 | 逗号分隔的专有名词列表 |
| 标点增强 | 否 | 是否自动添加标点 |
| 文本归一化 | 否 | 规范化数字、日期等格式 |
| 启用 | 否 | 是否在选择列表中显示 |

### 推荐配置示例

**硅基流动 SenseVoice**

```
模型名称：SenseVoice 中文
Model Name：FunAudioLLM/SenseVoiceSmall
Base URL：https://api.siliconflow.cn/v1
语言：中文
```

### 测试识别效果

1. 在 ASR 列表中找到目标模型
2. 点击 **试听识别** 按钮
3. 选择以下测试方式之一：
   - **上传文件**：拖拽或选择音频文件
   - **麦克风录音**：点击录音按钮开始录制
4. 点击 **开始识别** 查看结果
5. 检查识别文本、延迟和置信度

---

## 大语言模型 (LLM) 配置

### 支持的模型类型

| 类型 | 用途 |
|-----|------|
| 文本 (text) | 对话生成，用于助手核心交互 |
| 嵌入 (embedding) | 向量化，用于知识库检索 |
| 重排 (rerank) | 结果重排序，优化检索结果 |

### 配置字段说明

| 字段 | 必填 | 说明 |
|-----|-----|------|
| 厂商 | 是 | 当前支持 OpenAI Compatible |
| 模型类型 | 是 | 文本/嵌入/重排 |
| 模型名称 | 是 | 自定义显示名称 |
| 模型标识 | 否 | API 请求中的 model 参数 |
| Base URL | 是 | API 服务地址 |
| API Key | 是 | 服务认证密钥 |
| 温度 | 否 | 输出随机性 (0-2)，仅文本模型 |
| 上下文长度 | 否 | 最大 token 数 |
| 启用 | 否 | 是否在选择列表中显示 |

### 推荐配置示例

**OpenAI GPT-4o Mini**

```
模型名称：GPT-4o Mini
模型类型：文本
模型标识：gpt-4o-mini
Base URL：https://api.openai.com/v1
温度：0.7
上下文长度：8192
```

**硅基流动 Qwen**

```
模型名称：Qwen2.5-7B
模型类型：文本
模型标识：Qwen/Qwen2.5-7B-Instruct
Base URL：https://api.siliconflow.cn/v1
温度：0.7
```

### 测试模型效果

1. 在 LLM 列表中找到目标模型
2. 点击 **预览** 按钮
3. 配置测试参数：
   - **System Prompt**：系统提示词
   - **User Message**：测试消息
   - **Temperature**：温度参数
   - **Max Tokens**：最大输出长度
4. 点击 **开始预览** 查看模型回复
5. 检查回复内容、延迟和 token 用量

---

## 声音资源 (TTS) 配置

### 支持的接口类型

| 接口类型 | 说明 |
|---------|------|
| OpenAI Compatible | 兼容 OpenAI TTS API 格式的服务 |
| DashScope | 阿里云 DashScope 语音合成服务 |

### 配置字段说明

| 字段 | 必填 | 说明 |
|-----|-----|------|
| 厂商 | 是 | OpenAI Compatible 或 DashScope |
| 声音名称 | 是 | 自定义显示名称 |
| 模型 | 是 | TTS 模型标识 |
| 声音 ID | 是 | 音色标识符 |
| Base URL | 否 | API 服务地址 |
| API Key | 是 | 服务认证密钥 |
| 语速 | 否 | 说话速度 (0.5-2.0)，默认 1.0 |
| 增益 | 否 | 音量调节 (-10 to 10 dB) |
| 音调 | 否 | 声音高低 (-12 to 12) |
| 性别 | 否 | 声音性别标签 |
| 语言 | 否 | 声音语言标签 |
| 备注 | 否 | 声音特点描述 |

### 推荐配置示例

**硅基流动 CosyVoice**

```
厂商：OpenAI Compatible
声音名称：Anna 中文女声
模型：FunAudioLLM/CosyVoice2-0.5B
声音 ID：FunAudioLLM/CosyVoice2-0.5B:anna
Base URL：https://api.siliconflow.cn/v1
语速：1.0
性别：女
语言：中文
```

**DashScope TTS**

```
厂商：DashScope
声音名称：Cherry
模型：qwen3-tts-flash-realtime
声音 ID：Cherry
Base URL：wss://dashscope.aliyuncs.com/api-ws/v1/realtime
语速：1.0
```

### CosyVoice 可用音色

| 音色 ID | 性别 | 风格 |
|--------|-----|------|
| alex | 男 | 成熟稳重 |
| anna | 女 | 温柔亲切 |
| bella | 女 | 活泼甜美 |
| benjamin | 男 | 年轻活力 |
| charles | 男 | 专业商务 |
| claire | 女 | 清新自然 |
| david | 男 | 沉稳大气 |
| diana | 女 | 优雅知性 |

### 试听声音效果

1. 在声音列表中找到目标声音
2. 点击 **播放** 按钮
3. 系统会自动合成一段试听语音
4. 检查声音效果是否符合预期

### 克隆声音

如需使用自定义声音：

1. 点击 **克隆声音** 按钮
2. 上传参考音频文件（WAV/MP3）
3. 填写声音名称和描述
4. 点击 **开始克隆**

!!! note "声音克隆说明"
    声音克隆功能需要 TTS 服务支持。上传的参考音频建议为 10-30 秒的清晰人声录音。

---

## 配置最佳实践

### 资源命名规范

建议使用清晰的命名规范，便于后续管理：

```
[厂商/模型]-[用途/语言]-[特点]
```

示例：
- `SF-SenseVoice-中文`
- `OpenAI-GPT4o-对话`
- `SF-CosyVoice-Anna女声`

### 多环境管理

如果有测试和生产环境，建议：

1. 为不同环境创建独立的资源配置
2. 在名称中标注环境，如 `GPT4o-Prod`、`GPT4o-Test`
3. 通过"启用"开关控制可见性

### 成本优化

| 场景 | 推荐配置 |
|-----|---------|
| 开发测试 | 使用低成本模型，如 GPT-4o-mini |
| 生产环境 | 根据质量要求选择合适模型 |
| 高并发 | 考虑使用本地部署的开源模型 |

---

## 下一步

资源配置完成后，请返回 [快速开始](index.md) 继续创建助手。