Files
AI-VideoAssistant/docs/content/roadmap.md
Xin Wang 14abbe6f10 Update roadmap documentation with additional reference projects
- Added new sections for open-source and commercial projects to enhance resource visibility.
- Included links to various relevant projects, expanding the list of resources available for users.
2026-03-05 13:17:37 +08:00

3.1 KiB
Raw Blame History

开发路线图

本页面展示 Realtime Agent Studio 的开发计划和进度。


已完成

实时交互引擎

  • 管线式全双工引擎 - ASR/LLM/TTS 流水线架构
  • 智能打断处理 - VAD + EOU 检测
  • OpenAI 兼容接口 - ASR/TTS 标准接口适配
  • DashScope TTS - 阿里云语音合成适配

智能体配置管理

  • 系统提示词编辑 - Prompt 配置,动态变量注入
  • 模型选择 - LLM/ASR/TTS 模型管理界面
  • 工具调用配置 - Webhook 工具 + 客户端工具

交互测试工具

  • 实时调试控制台 - WebSocket 调试连接示例

开放接口

  • WebSocket 协议 - /ws 端点完整实现
  • RESTful 接口 - 完整的 CRUD API

交互历史监控

  • 完整会话回放 - 音频 + 转写 + LLM 响应
  • 会话检索筛选 - 按时间/助手/状态筛选

开发中 🚧

智能体配置管理

  • 私有化 ASR/TTS 适配 - 本地模型接入
  • 工作流编辑 - 可视化流程编排
  • 知识库关联 - RAG 文档管理

实时交互引擎

  • 原生多模态模型 - Step Audio 接入GPT-4o Realtime/Gemini Live 国内环境受限)

开放接口

  • SDK 支持 - JavaScript/Python SDK
  • 电话接入 - 电话呼入自动接听/自动呼出接口和批量呼出
  • WebRTC 协议 - /webrtc 端点

效果评估

  • 自动化测试工具 - 固定测试 + 智能测试

计划中 🗒️

开放接口

  • Webhook 回调 - 会话事件通知机制

效果评估

  • 实时仪表盘增强 - 完善统计看板功能

企业特性

  • 多租户支持 - 团队/组织管理
  • 权限管理 - RBAC 角色权限控制
  • 审计日志 - 操作记录追踪

生态集成

  • 更多模型供应商 - 讯飞、百度、腾讯等
  • CRM 集成 - Salesforce、HubSpot 等
  • 呼叫中心集成 - SIP/PSTN 网关

版本规划

版本 目标 状态
v0.1.0 核心功能 MVP管线式引擎 已发布
v0.2.0 工作流编辑器,知识库集成 🚧 开发中
v0.3.0 SDK 发布,多模态模型支持 🗒️ 计划中
v1.0.0 生产就绪,企业特性 🗒️ 计划中

参考项目

开源项目

商业项目