Files
AI-VideoAssistant/docs/content/customization/asr.md
Xin Wang b300b469dc Update documentation for Realtime Agent Studio with enhanced content and structure
- Revised site name and description for clarity and detail.
- Updated navigation structure to better reflect the organization of content.
- Improved changelog entries for better readability and consistency.
- Migrated assistant configuration and prompt guidelines to new documentation paths.
- Enhanced core concepts section to clarify the roles and capabilities of assistants and engines.
- Streamlined workflow documentation to provide clearer guidance on configuration and usage.
2026-03-09 05:38:43 +08:00

1.2 KiB
Raw Blame History

语音识别

语音识别ASR负责把用户音频实时转写成文本供引擎继续理解和处理。

关键配置项

配置项 说明
ASR 引擎 选择语音识别服务提供商或自建服务
模型 实际使用的识别模型名称
语言 中文、英文或多语言
热词 提高业务词汇、品牌词、专有名词识别率
标点与规范化 自动补全标点、规范数字和日期等

选择建议

  • 客服、外呼等业务场景建议维护热词表,并按业务线持续更新
  • 多语言入口建议显式指定语言,避免模型自动判断带来的波动
  • 对延迟敏感的场景优先选择流式识别模型
  • 对准确率敏感的场景,先评估专有名词、数字、地址等样本的识别表现

运行建议

  • 使用与接入端一致的采样率和编码方式,减少额外转换
  • 在测试阶段准备固定样本,便于对比不同模型或参数的变化
  • 把“识别准确率”和“识别延迟”一起看,不要只看其中一项

相关文档

  • 声音资源 - 完整语音输入输出链路中的 TTS 侧配置
  • 快速开始 - 以任务路径接入第一个 ASR 资源