AI-VideoAssistant/docs/content/customization/asr.md

# 语音识别

语音识别（ASR）负责把用户音频实时转写成文本，供引擎继续理解和处理。

## 关键配置项

| 配置项 | 说明 |
|--------|------|
| **ASR 引擎** | 选择语音识别服务提供商或自建服务 |
| **模型** | 实际使用的识别模型名称 |
| **语言** | 中文、英文或多语言 |
| **热词** | 提高业务词汇、品牌词、专有名词识别率 |
| **标点与规范化** | 自动补全标点、规范数字和日期等 |

## 选择建议

- 客服、外呼等业务场景建议维护热词表，并按业务线持续更新
- 多语言入口建议显式指定语言，避免模型自动判断带来的波动
- 对延迟敏感的场景优先选择流式识别模型
- 对准确率敏感的场景，先评估专有名词、数字、地址等样本的识别表现

## 运行建议

- 使用与接入端一致的采样率和编码方式，减少额外转换
- 在测试阶段准备固定样本，便于对比不同模型或参数的变化
- 把“识别准确率”和“识别延迟”一起看，不要只看其中一项

## 相关文档

- [声音资源](voices.md) - 完整语音输入输出链路中的 TTS 侧配置
- [快速开始](../quickstart/index.md) - 以任务路径接入第一个 ASR 资源