Files
AI-VideoAssistant/docs/content/customization/asr.md
Xin Wang da38157638 Add ASR interim results support in Assistant model and API
- Introduced `asr_interim_enabled` field in the Assistant model to control interim ASR results.
- Updated AssistantBase and AssistantUpdate schemas to include the new field.
- Modified the database schema to add the `asr_interim_enabled` column.
- Enhanced runtime metadata to reflect interim ASR settings.
- Updated API endpoints and tests to validate the new functionality.
- Adjusted documentation to include details about interim ASR results configuration.
2026-03-06 12:58:54 +08:00

1.0 KiB
Raw Blame History

语音识别

语音识别ASR负责将用户音频实时转写为文本供对话引擎理解。

模式

  • offline:引擎本地缓冲音频后触发识别(适用于 OpenAI-compatible / SiliconFlow
  • streaming:音频分片实时发送到服务端,服务端持续返回转写事件(适用于 DashScope Realtime ASR

配置项

配置项 说明
ASR 引擎 选择语音识别服务提供商
模型 识别模型名称
enable_interim 是否开启离线 ASR 中间结果(默认 false,仅离线模式生效)
语言 中文/英文/多语言
热词 提升特定词汇识别准确率
标点与规范化 是否自动补全标点、文本规范化

建议

  • 客服场景建议开启热词并维护业务词表
  • 多语言场景建议按会话入口显式指定语言
  • 对延迟敏感场景优先选择流式识别模型
  • 当前支持提供商:openai_compatiblesiliconflowdashscopebuffered(回退)

相关文档