Files
AI-VideoAssistant/docs/content/roadmap.md
Xin Wang 4c05131536 Update documentation and configuration for Realtime Agent Studio
- Revised mkdocs.yml to reflect the new site name and description, enhancing clarity for users.
- Added a changelog.md to document important changes and updates for the project.
- Introduced a roadmap.md to outline development plans and progress for future releases.
- Expanded index.md with a comprehensive overview of the platform, including core features and installation instructions.
- Enhanced concepts documentation with detailed explanations of assistants, engines, and their configurations.
- Updated configuration documentation to provide clear guidance on environment setup and service configurations.
- Added extra JavaScript for improved user experience in the documentation site.
2026-03-02 23:35:22 +08:00

2.6 KiB
Raw Blame History

开发路线图

本页面展示 Realtime Agent Studio 的开发计划和进度。


已完成

实时交互引擎

  • 管线式全双工引擎 - ASR/LLM/TTS 流水线架构
  • 智能打断处理 - VAD + EOU 检测
  • OpenAI 兼容接口 - ASR/TTS 标准接口适配
  • DashScope TTS - 阿里云语音合成适配

智能体配置管理

  • 系统提示词编辑 - Prompt 配置,动态变量注入
  • 模型选择 - LLM/ASR/TTS 模型管理界面
  • 工具调用配置 - Webhook 工具 + 客户端工具

交互测试工具

  • 实时调试控制台 - WebSocket 调试连接示例

开放接口

  • WebSocket 协议 - /ws 端点完整实现
  • RESTful 接口 - 完整的 CRUD API

交互历史监控

  • 完整会话回放 - 音频 + 转写 + LLM 响应
  • 会话检索筛选 - 按时间/助手/状态筛选

开发中 🚧

智能体配置管理

  • 私有化 ASR/TTS 适配 - 本地模型接入
  • 工作流编辑 - 可视化流程编排
  • 知识库关联 - RAG 文档管理

实时交互引擎

  • 原生多模态模型 - Step Audio 接入GPT-4o Realtime/Gemini Live 国内环境受限)

开放接口

  • SDK 支持 - JavaScript/Python SDK
  • WebRTC 协议 - /webrtc 端点

效果评估

  • 自动化测试工具 - 固定测试 + 智能测试

计划中 🗒️

开放接口

  • Webhook 回调 - 会话事件通知机制

效果评估

  • 实时仪表盘增强 - 完善统计看板功能

企业特性

  • 多租户支持 - 团队/组织管理
  • 权限管理 - RBAC 角色权限控制
  • 审计日志 - 操作记录追踪

生态集成

  • 更多模型供应商 - 讯飞、百度、腾讯等
  • CRM 集成 - Salesforce、HubSpot 等
  • 呼叫中心集成 - SIP/PSTN 网关

版本规划

版本 目标 状态
v0.1.0 核心功能 MVP管线式引擎 已发布
v0.2.0 工作流编辑器,知识库集成 🚧 开发中
v0.3.0 SDK 发布,多模态模型支持 🗒️ 计划中
v1.0.0 生产就绪,企业特性 🗒️ 计划中

参与贡献

对路线图有建议?欢迎通过以下方式参与: