Files
AI-VideoAssistant/docs/content/roadmap.md
Xin Wang b300b469dc Update documentation for Realtime Agent Studio with enhanced content and structure
- Revised site name and description for clarity and detail.
- Updated navigation structure to better reflect the organization of content.
- Improved changelog entries for better readability and consistency.
- Migrated assistant configuration and prompt guidelines to new documentation paths.
- Enhanced core concepts section to clarify the roles and capabilities of assistants and engines.
- Streamlined workflow documentation to provide clearer guidance on configuration and usage.
2026-03-09 05:38:43 +08:00

3.1 KiB
Raw Blame History

开发路线图

本页面展示 Realtime Agent Studio 的开发计划和进度。


已完成

实时交互引擎

  • 管线式全双工引擎 - ASR / LLM / TTS 流水线架构
  • 智能打断处理 - VAD + EOU 检测
  • OpenAI 兼容接口 - ASR / TTS 标准接口适配
  • DashScope TTS - 阿里云语音合成适配

助手配置管理

  • 系统提示词编辑 - Prompt 配置,动态变量注入
  • 模型选择 - LLM / ASR / TTS 模型管理界面
  • 工具调用配置 - Webhook 工具 + 客户端工具

调试与观察

  • 实时调试控制台 - WebSocket 调试连接示例
  • 完整会话回放 - 音频 + 转写 + LLM 响应
  • 会话检索筛选 - 按时间 / 助手 / 状态筛选

开放接口

  • WebSocket 协议 - /ws 端点完整实现
  • RESTful 接口 - 完整的 CRUD API

开发中 🚧

助手与能力编排

  • 私有化 ASR / TTS 适配 - 本地模型接入
  • 工作流编辑 - 可视化流程编排
  • 知识库关联 - RAG 文档管理

实时交互引擎

  • 原生多模态模型 - Step Audio 接入GPT-4o Realtime / Gemini Live 国内环境受限)
  • WebRTC 协议 - /webrtc 端点

开放接口

  • SDK 支持 - JavaScript / Python SDK
  • 电话接入 - 电话呼入自动接听 / 自动呼出接口和批量呼出

效果评估

  • 自动化测试工具 - 固定测试 + 智能测试

计划中 🗒️

开放接口

  • Webhook 回调 - 会话事件通知机制

数据与评估

  • 实时仪表盘增强 - 完善统计看板功能
  • 评估闭环 - 测试、评分、回归与变更追踪

企业能力

  • 多租户支持 - 团队 / 组织管理
  • 权限管理 - RBAC 角色权限控制
  • 审计日志 - 操作记录追踪

生态集成

  • 更多模型供应商 - 讯飞、百度、腾讯等
  • CRM 集成 - Salesforce、HubSpot 等
  • 呼叫中心集成 - SIP / PSTN 网关

版本规划

版本 目标 状态
v0.1.0 核心功能 MVP管线式引擎 已发布
v0.2.0 工作流编辑器,知识库集成 🚧 开发中
v0.3.0 SDK 发布,多模态模型支持 🗒️ 计划中
v1.0.0 生产就绪,企业特性 🗒️ 计划中

生态参考

开源项目

文档与研究参考