# 资源库配置详解 本页面详细介绍资源库中各类资源的配置方法和最佳实践。 ## 语音识别 (ASR) 配置 ### 支持的接口类型 | 接口类型 | 说明 | |---------|------| | OpenAI Compatible | 兼容 OpenAI 语音识别 API 格式的服务 | ### 配置字段说明 | 字段 | 必填 | 说明 | |-----|-----|------| | 模型名称 | 是 | 自定义显示名称,便于识别 | | 接口类型 | 是 | 当前支持 OpenAI Compatible | | 语言 | 是 | 识别语言:中文/英文/多语言 | | Model Name | 否 | API 请求中的 model 参数 | | Base URL | 是 | API 服务地址 | | API Key | 是 | 服务认证密钥 | | 热词 | 否 | 逗号分隔的专有名词列表 | | 标点增强 | 否 | 是否自动添加标点 | | 文本归一化 | 否 | 规范化数字、日期等格式 | | 启用 | 否 | 是否在选择列表中显示 | ### 推荐配置示例 **硅基流动 SenseVoice** ``` 模型名称:SenseVoice 中文 Model Name:FunAudioLLM/SenseVoiceSmall Base URL:https://api.siliconflow.cn/v1 语言:中文 ``` ### 测试识别效果 1. 在 ASR 列表中找到目标模型 2. 点击 **试听识别** 按钮 3. 选择以下测试方式之一: - **上传文件**:拖拽或选择音频文件 - **麦克风录音**:点击录音按钮开始录制 4. 点击 **开始识别** 查看结果 5. 检查识别文本、延迟和置信度 --- ## 大语言模型 (LLM) 配置 ### 支持的模型类型 | 类型 | 用途 | |-----|------| | 文本 (text) | 对话生成,用于助手核心交互 | | 嵌入 (embedding) | 向量化,用于知识库检索 | | 重排 (rerank) | 结果重排序,优化检索结果 | ### 配置字段说明 | 字段 | 必填 | 说明 | |-----|-----|------| | 厂商 | 是 | 当前支持 OpenAI Compatible | | 模型类型 | 是 | 文本/嵌入/重排 | | 模型名称 | 是 | 自定义显示名称 | | 模型标识 | 否 | API 请求中的 model 参数 | | Base URL | 是 | API 服务地址 | | API Key | 是 | 服务认证密钥 | | 温度 | 否 | 输出随机性 (0-2),仅文本模型 | | 上下文长度 | 否 | 最大 token 数 | | 启用 | 否 | 是否在选择列表中显示 | ### 推荐配置示例 **OpenAI GPT-4o Mini** ``` 模型名称:GPT-4o Mini 模型类型:文本 模型标识:gpt-4o-mini Base URL:https://api.openai.com/v1 温度:0.7 上下文长度:8192 ``` **硅基流动 Qwen** ``` 模型名称:Qwen2.5-7B 模型类型:文本 模型标识:Qwen/Qwen2.5-7B-Instruct Base URL:https://api.siliconflow.cn/v1 温度:0.7 ``` ### 测试模型效果 1. 在 LLM 列表中找到目标模型 2. 点击 **预览** 按钮 3. 配置测试参数: - **System Prompt**:系统提示词 - **User Message**:测试消息 - **Temperature**:温度参数 - **Max Tokens**:最大输出长度 4. 点击 **开始预览** 查看模型回复 5. 检查回复内容、延迟和 token 用量 --- ## 声音资源 (TTS) 配置 ### 支持的接口类型 | 接口类型 | 说明 | |---------|------| | OpenAI Compatible | 兼容 OpenAI TTS API 格式的服务 | | DashScope | 阿里云 DashScope 语音合成服务 | ### 配置字段说明 | 字段 | 必填 | 说明 | |-----|-----|------| | 厂商 | 是 | OpenAI Compatible 或 DashScope | | 声音名称 | 是 | 自定义显示名称 | | 模型 | 是 | TTS 模型标识 | | 声音 ID | 是 | 音色标识符 | | Base URL | 否 | API 服务地址 | | API Key | 是 | 服务认证密钥 | | 语速 | 否 | 说话速度 (0.5-2.0),默认 1.0 | | 增益 | 否 | 音量调节 (-10 to 10 dB) | | 音调 | 否 | 声音高低 (-12 to 12) | | 性别 | 否 | 声音性别标签 | | 语言 | 否 | 声音语言标签 | | 备注 | 否 | 声音特点描述 | ### 推荐配置示例 **硅基流动 CosyVoice** ``` 厂商:OpenAI Compatible 声音名称:Anna 中文女声 模型:FunAudioLLM/CosyVoice2-0.5B 声音 ID:FunAudioLLM/CosyVoice2-0.5B:anna Base URL:https://api.siliconflow.cn/v1 语速:1.0 性别:女 语言:中文 ``` **DashScope TTS** ``` 厂商:DashScope 声音名称:Cherry 模型:qwen3-tts-flash-realtime 声音 ID:Cherry Base URL:wss://dashscope.aliyuncs.com/api-ws/v1/realtime 语速:1.0 ``` ### CosyVoice 可用音色 | 音色 ID | 性别 | 风格 | |--------|-----|------| | alex | 男 | 成熟稳重 | | anna | 女 | 温柔亲切 | | bella | 女 | 活泼甜美 | | benjamin | 男 | 年轻活力 | | charles | 男 | 专业商务 | | claire | 女 | 清新自然 | | david | 男 | 沉稳大气 | | diana | 女 | 优雅知性 | ### 试听声音效果 1. 在声音列表中找到目标声音 2. 点击 **播放** 按钮 3. 系统会自动合成一段试听语音 4. 检查声音效果是否符合预期 ### 克隆声音 如需使用自定义声音: 1. 点击 **克隆声音** 按钮 2. 上传参考音频文件(WAV/MP3) 3. 填写声音名称和描述 4. 点击 **开始克隆** !!! note "声音克隆说明" 声音克隆功能需要 TTS 服务支持。上传的参考音频建议为 10-30 秒的清晰人声录音。 --- ## 配置最佳实践 ### 资源命名规范 建议使用清晰的命名规范,便于后续管理: ``` [厂商/模型]-[用途/语言]-[特点] ``` 示例: - `SF-SenseVoice-中文` - `OpenAI-GPT4o-对话` - `SF-CosyVoice-Anna女声` ### 多环境管理 如果有测试和生产环境,建议: 1. 为不同环境创建独立的资源配置 2. 在名称中标注环境,如 `GPT4o-Prod`、`GPT4o-Test` 3. 通过"启用"开关控制可见性 ### 成本优化 | 场景 | 推荐配置 | |-----|---------| | 开发测试 | 使用低成本模型,如 GPT-4o-mini | | 生产环境 | 根据质量要求选择合适模型 | | 高并发 | 考虑使用本地部署的开源模型 | --- ## 下一步 资源配置完成后,请返回 [快速开始](index.md) 继续创建助手。