Files

2.4 KiB
Raw Permalink Blame History

语音识别

语音识别ASR负责把用户音频实时转写成文本供引擎继续理解和处理。

关键配置项

配置项 说明
ASR 引擎 选择语音识别服务提供商或自建服务
模型 实际使用的识别模型名称
语言 中文、英文或多语言
热词 提高业务词汇、品牌词、专有名词识别率
标点与规范化 自动补全标点、规范数字和日期等

模式

  • offline:引擎本地缓冲音频后触发识别(适用于 OpenAI-compatible / SiliconFlow
  • streaming:音频分片实时发送到服务端,服务端持续返回转写事件(适用于 DashScope Realtime ASR、Volcengine BigASR

配置项

配置项 说明
ASR 引擎 选择语音识别服务提供商
模型 识别模型名称
enable_interim 是否开启离线 ASR 中间结果(默认 false,仅离线模式生效)
app_id / resource_id Volcengine 等厂商的应用标识与资源标识
request_params 厂商原生请求参数透传,例如 end_window_sizeforce_to_speech_timecontext
语言 中文/英文/多语言
热词 提升特定词汇识别准确率
标点与规范化 是否自动补全标点、文本规范化

选择建议

  • 客服、外呼等业务场景建议维护热词表,并按业务线持续更新
  • 多语言入口建议显式指定语言,避免模型自动判断带来的波动
  • 对延迟敏感的场景优先选择流式识别模型
  • 对准确率敏感的场景,先评估专有名词、数字、地址等样本的识别表现

运行建议

  • 使用与接入端一致的采样率和编码方式,减少额外转换
  • 在测试阶段准备固定样本,便于对比不同模型或参数的变化
  • 把“识别准确率”和“识别延迟”一起看,不要只看其中一项

相关文档

  • 声音资源 - 完整语音输入输出链路中的 TTS 侧配置
  • 快速开始 - 以任务路径接入第一个 ASR 资源
  • 客服场景建议开启热词并维护业务词表
  • 多语言场景建议按会话入口显式指定语言
  • 对延迟敏感场景优先选择流式识别模型
  • 当前支持提供商:openai_compatiblesiliconflowdashscopevolcenginebuffered(回退)