Files
AI-VideoAssistant/docs/content/roadmap.md
Xin Wang 65ae2287d5 Update documentation for assistant configuration and interaction models
- Corrected phrasing in the introduction of RAS as an open-source alternative.
- Added new documentation sections for voice AI and voice agents.
- Enhanced the flowchart for assistant components to include detailed configurations.
- Updated terminology for engine types to clarify distinctions between Pipeline and Realtime engines.
- Introduced a new section on user utterance endpoints (EoU) to explain detection mechanisms and configurations.
2026-03-06 14:38:59 +08:00

116 lines
3.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 开发路线图
本页面展示 Realtime Agent Studio 的开发计划和进度。
---
## 已完成 :white_check_mark:
### 实时交互引擎
- [x] **管线式全双工引擎** - ASR/LLM/TTS 流水线架构
- [x] **智能打断处理** - VAD + EOU 检测
- [x] **OpenAI 兼容接口** - ASR/TTS 标准接口适配
- [x] **DashScope TTS** - 阿里云语音合成适配
### 智能体配置管理
- [x] **系统提示词编辑** - Prompt 配置,动态变量注入
- [x] **模型选择** - LLM/ASR/TTS 模型管理界面
- [x] **工具调用配置** - Webhook 工具 + 客户端工具
### 交互测试工具
- [x] **实时调试控制台** - WebSocket 调试连接示例
### 开放接口
- [x] **WebSocket 协议** - `/ws` 端点完整实现
- [x] **RESTful 接口** - 完整的 CRUD API
### 交互历史监控
- [x] **完整会话回放** - 音频 + 转写 + LLM 响应
- [x] **会话检索筛选** - 按时间/助手/状态筛选
---
## 开发中 :construction:
### 智能体配置管理
- [ ] **私有化 ASR/TTS 适配** - 本地模型接入
- [ ] **工作流编辑** - 可视化流程编排
- [ ] **知识库关联** - RAG 文档管理
### 实时交互引擎
- [ ] **原生多模态模型** - Step Audio 接入GPT-4o Realtime/Gemini Live 国内环境受限)
### 开放接口
- [ ] **SDK 支持** - JavaScript/Python SDK
- [ ] **电话接入** - 电话呼入自动接听/自动呼出接口和批量呼出
- [ ] **WebRTC 协议** - `/webrtc` 端点
### 效果评估
- [ ] **自动化测试工具** - 固定测试 + 智能测试
---
## 计划中 :spiral_notepad:
### 开放接口
- [ ] **Webhook 回调** - 会话事件通知机制
### 效果评估
- [ ] **实时仪表盘增强** - 完善统计看板功能
### 企业特性
- [ ] **多租户支持** - 团队/组织管理
- [ ] **权限管理** - RBAC 角色权限控制
- [ ] **审计日志** - 操作记录追踪
### 生态集成
- [ ] **更多模型供应商** - 讯飞、百度、腾讯等
- [ ] **CRM 集成** - Salesforce、HubSpot 等
- [ ] **呼叫中心集成** - SIP/PSTN 网关
---
## 版本规划
| 版本 | 目标 | 状态 |
|------|------|------|
| **v0.1.0** | 核心功能 MVP管线式引擎 | :white_check_mark: 已发布 |
| **v0.2.0** | 工作流编辑器,知识库集成 | :construction: 开发中 |
| **v0.3.0** | SDK 发布,多模态模型支持 | :spiral_notepad: 计划中 |
| **v1.0.0** | 生产就绪,企业特性 | :spiral_notepad: 计划中 |
---
## 参考项目
### 开源项目
* [Livekit Agent](https://github.com/livekit/agents)
* [Pipecat](https://github.com/pipecat-ai/pipecat)
* [vison-agent](https://github.com/GetStream/Vision-Agents)
* [active-call](https://github.com/miuda-ai/active-call)
* [TEN](https://github.com/TEN-framework/ten-framework)
* [airi](https://github.com/moeru-ai/airi)
* [Vocode Core](https://github.com/vocodedev/vocode-core)
* [awesome-voice-agents](https://github.com/yzfly/awesome-voice-agents)
### 商业项目
* [Vapi](https://vapi.ai)
* [Retell](https://www.retellai.com)
* [Sierra](https://sierra.ai/product/voice)
* [Bolna](https://platform.bolna.ai)
### 文档
* [Voice AI & Voice Agents](https://voiceaiandvoiceagents.com/)