- Revised site name and description for clarity and detail. - Updated navigation structure to better reflect the organization of content. - Improved changelog entries for better readability and consistency. - Migrated assistant configuration and prompt guidelines to new documentation paths. - Enhanced core concepts section to clarify the roles and capabilities of assistants and engines. - Streamlined workflow documentation to provide clearer guidance on configuration and usage.
3.1 KiB
3.1 KiB
开发路线图
本页面展示 Realtime Agent Studio 的开发计划和进度。
已完成 ✅
实时交互引擎
- 管线式全双工引擎 - ASR / LLM / TTS 流水线架构
- 智能打断处理 - VAD + EOU 检测
- OpenAI 兼容接口 - ASR / TTS 标准接口适配
- DashScope TTS - 阿里云语音合成适配
助手配置管理
- 系统提示词编辑 - Prompt 配置,动态变量注入
- 模型选择 - LLM / ASR / TTS 模型管理界面
- 工具调用配置 - Webhook 工具 + 客户端工具
调试与观察
- 实时调试控制台 - WebSocket 调试连接示例
- 完整会话回放 - 音频 + 转写 + LLM 响应
- 会话检索筛选 - 按时间 / 助手 / 状态筛选
开放接口
- WebSocket 协议 -
/ws端点完整实现 - RESTful 接口 - 完整的 CRUD API
开发中 🚧
助手与能力编排
- 私有化 ASR / TTS 适配 - 本地模型接入
- 工作流编辑 - 可视化流程编排
- 知识库关联 - RAG 文档管理
实时交互引擎
- 原生多模态模型 - Step Audio 接入(GPT-4o Realtime / Gemini Live 国内环境受限)
- WebRTC 协议 -
/webrtc端点
开放接口
- SDK 支持 - JavaScript / Python SDK
- 电话接入 - 电话呼入自动接听 / 自动呼出接口和批量呼出
效果评估
- 自动化测试工具 - 固定测试 + 智能测试
计划中 🗒️
开放接口
- Webhook 回调 - 会话事件通知机制
数据与评估
- 实时仪表盘增强 - 完善统计看板功能
- 评估闭环 - 测试、评分、回归与变更追踪
企业能力
- 多租户支持 - 团队 / 组织管理
- 权限管理 - RBAC 角色权限控制
- 审计日志 - 操作记录追踪
生态集成
- 更多模型供应商 - 讯飞、百度、腾讯等
- CRM 集成 - Salesforce、HubSpot 等
- 呼叫中心集成 - SIP / PSTN 网关
版本规划
| 版本 | 目标 | 状态 |
|---|---|---|
| v0.1.0 | 核心功能 MVP,管线式引擎 | ✅ 已发布 |
| v0.2.0 | 工作流编辑器,知识库集成 | 🚧 开发中 |
| v0.3.0 | SDK 发布,多模态模型支持 | 🗒️ 计划中 |
| v1.0.0 | 生产就绪,企业特性 | 🗒️ 计划中 |