AI-VideoAssistant/docs/content/customization/asr.md

# 语音识别

语音识别（ASR）负责将用户音频实时转写为文本，供对话引擎理解。

## 模式

- `offline`：引擎本地缓冲音频后触发识别（适用于 OpenAI-compatible / SiliconFlow）。
- `streaming`：音频分片实时发送到服务端，服务端持续返回转写事件（适用于 DashScope Realtime ASR）。

## 配置项

| 配置项 | 说明 |
|---|---|
| ASR 引擎 | 选择语音识别服务提供商 |
| 模型 | 识别模型名称 |
| `enable_interim` | 是否开启离线 ASR 中间结果（默认 `false`，仅离线模式生效） |
| 语言 | 中文/英文/多语言 |
| 热词 | 提升特定词汇识别准确率 |
| 标点与规范化 | 是否自动补全标点、文本规范化 |

## 建议

- 客服场景建议开启热词并维护业务词表
- 多语言场景建议按会话入口显式指定语言
- 对延迟敏感场景优先选择流式识别模型
- 当前支持提供商：`openai_compatible`、`siliconflow`、`dashscope`、`buffered`（回退）

## 相关文档

- [语音配置总览](voices.md)