Files
AI-VideoAssistant/docs/content/index.md
Xin Wang 9734b38808 Add task list support and update roadmap in documentation
- Added pymdownx.tasklist extension to mkdocs.yml for enhanced task management.
- Revised the roadmap section in index.md to include additional completed and in-progress tasks, improving project tracking and visibility.
2026-03-02 17:01:24 +08:00

5.9 KiB
Raw Blame History

实时交互智能体工作平台RAS

实时交互智能体工作平台Realtime Agent Studio简称 RAS是一款构建实时交互音视频智能体的工作平台。支持管线式的全双工交互引擎和原生多模态模型两种核心覆盖实时交互智能体构建过程中的配置、测试、发布、监控流程环节平台包含大模型集成、语音识别、语音合成、自动化测试等功能帮助用户快速构建实时交互智能体。

可以将该平台看作VapiRetellElevenAgents的开源替代。

仪表盘

功能特色

实时交互引擎

平台的核心是一个低延迟、高并发的实时交互引擎,支持两种架构模式:

  • 管线式全双工引擎将语音识别ASR、大语言模型LLM、语音合成TTS串联成流水线支持语音打断实现自然的对话体验
  • 原生多模态模型支持:直接接入 GPT-4o Realtime、Gemini Live 等端到端多模态模型,获得更低延迟和更自然的语音交互
  • 智能打断处理支持基于声音活动和语义的turn-detection模型引擎自动处理音频截断和状态同步

智能体配置管理

提供可视化的智能体配置界面,无需编码即可创建和调整智能体:

  • 系统提示词编辑:支持角色设定,会话动态变量
  • 模型选择与参数调优:灵活切换 LLM/ASR/TTS 供应商,调整温度、采样等参数
  • 工具/函数调用配置webhook工具通过网络请求访问外部资源客户端工具通过与用户交互获取信息以及内建工具比如代码执行器计算工具。
  • 知识库关联:接入 RAG 系统,让智能体基于私有文档回答问题
  • 工作流编辑:使用可视化流程编辑器构建包含多个环节的交互助手及其上下文切换

交互测试工具

内置完整的测试工具链,保障智能体上线质量:

  • 实时调试控制台:在线测试体验智能体交互 ASR/LLM/TTS 各环节的输入输出
  • 自动化测试工具支持固定测试预设问答对批量测试和智能测试AI自动生成测试用例自动执行并生成测试报告

开放接口

提供标准化的 API 接口,便于集成到现有系统:

  • WebSocket 实时协议:支持音视频流式传输、双向通信
  • RESTful 管理接口:助手 CRUD、会话管理、配置导入导出
  • Webhook 回调:会话开始/结束、工具调用、异常告警等事件通知
  • SDK 支持:提供 JavaScript、Python、移动端 SDK简化客户端集成

交互历史监控

全面的会话记录和数据分析能力:

  • 完整会话回放保存音频、转写文本、LLM 响应、工具调用的完整链路
  • 实时仪表盘:并发会话数、平均响应时间、错误率等关键指标可视化
  • 会话检索与筛选:按时间、助手、用户、关键词等维度快速定位会话

自主部署

支持私有化部署,数据安全可控:

  • Docker 一键部署:提供 docker-compose 配置,一行命令启动完整平台
  • 模型本地化:支持云端模型和本地私有化模型两种方案

核心功能

功能模块 描述
助手管理 创建、配置、测试 AI 助手
工作流 可视化流程编排
模型库 LLM/ASR/语音模型配置
知识库 RAG 文档知识管理
历史记录 对话日志查询与分析
自动化测试 批量测试与质量评估
仪表盘 实时数据统计与可视化分析

开发计划Roadmap

已完成 (Completed)

实时交互引擎

  • 管线式全双工引擎 - ASR/LLM/TTS 流水线
    • 智能打断处理 - VAD + EOU 检测
    • OpenAI兼容的 ASR TTS 接口适配
    • DashScope TTS 接口适配

智能体配置管理

  • 系统提示词编辑 - prompt 配置,动态变量注入
  • 模型选择 - LLM/ASR/TTS 模型管理
  • 工具调用配置 - webhook 工具 + 客户端工具

交互测试工具

  • 实时调试控制台 - WebSocket 调试连接示例

开放接口

  • WebSocket 协议 - /ws 端点
  • RESTful 接口 - 完整的 CRUD API

交互历史监控

  • 完整会话回放 - 音频 + 转写 + LLM 响应
  • 会话检索筛选 - 按时间/助手/状态筛选

开发中 (In Progress)

智能体配置管理

  • 私有化部署的 ASR TTS 适配
  • 工作流编辑 - 可视化流程编排
  • 知识库关联 - RAG 文档管理

实时交互引擎

  • 原生多模态模型支持 - 由于GPT-4o Realtime, Gemini Live国内环境问题计划加入Step Audio

开放接口

  • SDK 支持 - JavaScript/Python SDK
  • WebRTC 协议 - /webrtc 端点

效果评估

  • 自动化测试工具 - 固定测试 + 智能测试

待实现 (To Do)

开放接口

  • Webhook 回调 - 会话事件通知

效果评估

  • 实时仪表盘 - 基础统计看板,需完善

快速导航

技术支持

如有问题,请提交 Issue 或联系技术支持团队。