- Added new sections for open-source and commercial projects to enhance resource visibility. - Included links to various relevant projects, expanding the list of resources available for users.
112 lines
3.0 KiB
Markdown
112 lines
3.0 KiB
Markdown
# 开发路线图
|
||
|
||
本页面展示 Realtime Agent Studio 的开发计划和进度。
|
||
|
||
---
|
||
|
||
## 已完成 :white_check_mark:
|
||
|
||
### 实时交互引擎
|
||
|
||
- [x] **管线式全双工引擎** - ASR/LLM/TTS 流水线架构
|
||
- [x] **智能打断处理** - VAD + EOU 检测
|
||
- [x] **OpenAI 兼容接口** - ASR/TTS 标准接口适配
|
||
- [x] **DashScope TTS** - 阿里云语音合成适配
|
||
|
||
### 智能体配置管理
|
||
|
||
- [x] **系统提示词编辑** - Prompt 配置,动态变量注入
|
||
- [x] **模型选择** - LLM/ASR/TTS 模型管理界面
|
||
- [x] **工具调用配置** - Webhook 工具 + 客户端工具
|
||
|
||
### 交互测试工具
|
||
|
||
- [x] **实时调试控制台** - WebSocket 调试连接示例
|
||
|
||
### 开放接口
|
||
|
||
- [x] **WebSocket 协议** - `/ws` 端点完整实现
|
||
- [x] **RESTful 接口** - 完整的 CRUD API
|
||
|
||
### 交互历史监控
|
||
|
||
- [x] **完整会话回放** - 音频 + 转写 + LLM 响应
|
||
- [x] **会话检索筛选** - 按时间/助手/状态筛选
|
||
|
||
---
|
||
|
||
## 开发中 :construction:
|
||
|
||
### 智能体配置管理
|
||
|
||
- [ ] **私有化 ASR/TTS 适配** - 本地模型接入
|
||
- [ ] **工作流编辑** - 可视化流程编排
|
||
- [ ] **知识库关联** - RAG 文档管理
|
||
|
||
### 实时交互引擎
|
||
|
||
- [ ] **原生多模态模型** - Step Audio 接入(GPT-4o Realtime/Gemini Live 国内环境受限)
|
||
|
||
### 开放接口
|
||
|
||
- [ ] **SDK 支持** - JavaScript/Python SDK
|
||
- [ ] **电话接入** - 电话呼入自动接听/自动呼出接口和批量呼出
|
||
- [ ] **WebRTC 协议** - `/webrtc` 端点
|
||
|
||
### 效果评估
|
||
|
||
- [ ] **自动化测试工具** - 固定测试 + 智能测试
|
||
|
||
---
|
||
|
||
## 计划中 :spiral_notepad:
|
||
|
||
### 开放接口
|
||
|
||
- [ ] **Webhook 回调** - 会话事件通知机制
|
||
|
||
### 效果评估
|
||
|
||
- [ ] **实时仪表盘增强** - 完善统计看板功能
|
||
|
||
### 企业特性
|
||
|
||
- [ ] **多租户支持** - 团队/组织管理
|
||
- [ ] **权限管理** - RBAC 角色权限控制
|
||
- [ ] **审计日志** - 操作记录追踪
|
||
|
||
### 生态集成
|
||
|
||
- [ ] **更多模型供应商** - 讯飞、百度、腾讯等
|
||
- [ ] **CRM 集成** - Salesforce、HubSpot 等
|
||
- [ ] **呼叫中心集成** - SIP/PSTN 网关
|
||
|
||
---
|
||
|
||
## 版本规划
|
||
|
||
| 版本 | 目标 | 状态 |
|
||
|------|------|------|
|
||
| **v0.1.0** | 核心功能 MVP,管线式引擎 | :white_check_mark: 已发布 |
|
||
| **v0.2.0** | 工作流编辑器,知识库集成 | :construction: 开发中 |
|
||
| **v0.3.0** | SDK 发布,多模态模型支持 | :spiral_notepad: 计划中 |
|
||
| **v1.0.0** | 生产就绪,企业特性 | :spiral_notepad: 计划中 |
|
||
|
||
---
|
||
|
||
## 参考项目
|
||
|
||
### 开源项目
|
||
* [Livekit Agent](https://github.com/livekit/agents)
|
||
* [Pipecat](https://github.com/pipecat-ai/pipecat)
|
||
* [vison-agent](https://github.com/GetStream/Vision-Agents)
|
||
* [active-call](https://github.com/miuda-ai/active-call)
|
||
* [TEN](https://github.com/TEN-framework/ten-framework)
|
||
* [airi](https://github.com/moeru-ai/airi)
|
||
* [awesome-voice-agents](https://github.com/yzfly/awesome-voice-agents)
|
||
|
||
### 商业项目
|
||
* [Vapi](https://vapi.ai)
|
||
* [Retell](https://www.retellai.com)
|
||
* [Sierra](https://sierra.ai/product/voice)
|
||
* [Bolna](https://platform.bolna.ai) |