- Introduced `asr_interim_enabled` field in the Assistant model to control interim ASR results. - Updated AssistantBase and AssistantUpdate schemas to include the new field. - Modified the database schema to add the `asr_interim_enabled` column. - Enhanced runtime metadata to reflect interim ASR settings. - Updated API endpoints and tests to validate the new functionality. - Adjusted documentation to include details about interim ASR results configuration.
31 lines
1.0 KiB
Markdown
31 lines
1.0 KiB
Markdown
# 语音识别
|
||
|
||
语音识别(ASR)负责将用户音频实时转写为文本,供对话引擎理解。
|
||
|
||
## 模式
|
||
|
||
- `offline`:引擎本地缓冲音频后触发识别(适用于 OpenAI-compatible / SiliconFlow)。
|
||
- `streaming`:音频分片实时发送到服务端,服务端持续返回转写事件(适用于 DashScope Realtime ASR)。
|
||
|
||
## 配置项
|
||
|
||
| 配置项 | 说明 |
|
||
|---|---|
|
||
| ASR 引擎 | 选择语音识别服务提供商 |
|
||
| 模型 | 识别模型名称 |
|
||
| `enable_interim` | 是否开启离线 ASR 中间结果(默认 `false`,仅离线模式生效) |
|
||
| 语言 | 中文/英文/多语言 |
|
||
| 热词 | 提升特定词汇识别准确率 |
|
||
| 标点与规范化 | 是否自动补全标点、文本规范化 |
|
||
|
||
## 建议
|
||
|
||
- 客服场景建议开启热词并维护业务词表
|
||
- 多语言场景建议按会话入口显式指定语言
|
||
- 对延迟敏感场景优先选择流式识别模型
|
||
- 当前支持提供商:`openai_compatible`、`siliconflow`、`dashscope`、`buffered`(回退)
|
||
|
||
## 相关文档
|
||
|
||
- [语音配置总览](voices.md)
|