54 lines
2.4 KiB
Markdown
54 lines
2.4 KiB
Markdown
# 语音识别
|
||
|
||
语音识别(ASR)负责把用户音频实时转写成文本,供引擎继续理解和处理。
|
||
|
||
## 关键配置项
|
||
|
||
| 配置项 | 说明 |
|
||
|--------|------|
|
||
| **ASR 引擎** | 选择语音识别服务提供商或自建服务 |
|
||
| **模型** | 实际使用的识别模型名称 |
|
||
| **语言** | 中文、英文或多语言 |
|
||
| **热词** | 提高业务词汇、品牌词、专有名词识别率 |
|
||
| **标点与规范化** | 自动补全标点、规范数字和日期等 |
|
||
|
||
## 模式
|
||
|
||
- `offline`:引擎本地缓冲音频后触发识别(适用于 OpenAI-compatible / SiliconFlow)。
|
||
- `streaming`:音频分片实时发送到服务端,服务端持续返回转写事件(适用于 DashScope Realtime ASR、Volcengine BigASR)。
|
||
|
||
## 配置项
|
||
|
||
| 配置项 | 说明 |
|
||
|---|---|
|
||
| ASR 引擎 | 选择语音识别服务提供商 |
|
||
| 模型 | 识别模型名称 |
|
||
| `enable_interim` | 是否开启离线 ASR 中间结果(默认 `false`,仅离线模式生效) |
|
||
| `app_id` / `resource_id` | Volcengine 等厂商的应用标识与资源标识 |
|
||
| `request_params` | 厂商原生请求参数透传,例如 `end_window_size`、`force_to_speech_time`、`context` |
|
||
| 语言 | 中文/英文/多语言 |
|
||
| 热词 | 提升特定词汇识别准确率 |
|
||
| 标点与规范化 | 是否自动补全标点、文本规范化 |
|
||
|
||
## 选择建议
|
||
|
||
- 客服、外呼等业务场景建议维护热词表,并按业务线持续更新
|
||
- 多语言入口建议显式指定语言,避免模型自动判断带来的波动
|
||
- 对延迟敏感的场景优先选择流式识别模型
|
||
- 对准确率敏感的场景,先评估专有名词、数字、地址等样本的识别表现
|
||
|
||
## 运行建议
|
||
|
||
- 使用与接入端一致的采样率和编码方式,减少额外转换
|
||
- 在测试阶段准备固定样本,便于对比不同模型或参数的变化
|
||
- 把“识别准确率”和“识别延迟”一起看,不要只看其中一项
|
||
|
||
## 相关文档
|
||
|
||
- [声音资源](voices.md) - 完整语音输入输出链路中的 TTS 侧配置
|
||
- [快速开始](../quickstart/index.md) - 以任务路径接入第一个 ASR 资源
|
||
- 客服场景建议开启热词并维护业务词表
|
||
- 多语言场景建议按会话入口显式指定语言
|
||
- 对延迟敏感场景优先选择流式识别模型
|
||
- 当前支持提供商:`openai_compatible`、`siliconflow`、`dashscope`、`volcengine`、`buffered`(回退)
|