# 实时交互智能体工作平台 实时交互智能体工作平台(Realtime Agent Studio,简称 RAS)是一款构建实时交互音视频智能体的工作平台。支持管线式的全双工交互引擎和原生多模态模型两种核心,覆盖实时交互智能体构建过程中的配置、测试、发布、监控流程环节,平台包含大模型集成、语音识别、语音合成、自动化测试等功能,帮助用户快速构建实时交互智能体。 可以将该平台看作Vapi,Retell,ElevenAgents的开源替代。 ## 功能特色 ### 实时交互引擎 平台的核心是一个低延迟、高并发的实时交互引擎,支持两种架构模式: - **管线式全双工引擎**:将语音识别(ASR)、大语言模型(LLM)、语音合成(TTS)串联成流水线,支持语音打断,实现自然的对话体验 - **原生多模态模型支持**:直接接入 GPT-4o Realtime、Gemini Live 等端到端多模态模型,获得更低延迟和更自然的语音交互 - **智能打断处理**:支持基于声音活动和语义的turn-detection模型,引擎自动处理音频截断和状态同步 ### 智能体配置管理 提供可视化的智能体配置界面,无需编码即可创建和调整智能体: - **系统提示词编辑**:支持角色设定,会话动态变量 - **模型选择与参数调优**:灵活切换 LLM/ASR/TTS 供应商,调整温度、采样等参数 - **工具/函数调用配置**:定义 - **知识库关联**:接入 RAG 系统,让智能体基于私有文档回答问题 - **工作流编辑**:使用可视化流程编辑器构建包含多个环节的交互助手及其上下文切换 ### 交互测试工具 内置完整的测试工具链,保障智能体上线质量: - **实时调试控制台**:,在线测试体验智能体交互 ASR/LLM/TTS 各环节的输入输出 - **自动化测试工具**:导入测试用例集或者构建对话测试智能体,自动执行并生成测试报告 ### 开放接口 提供标准化的 API 接口,便于集成到现有系统: - **WebSocket 实时协议**:支持音视频流式传输、双向通信 - **RESTful 管理接口**:助手 CRUD、会话管理、配置导入导出 - **Webhook 回调**:会话开始/结束、工具调用、异常告警等事件通知 - **SDK 支持**:提供 JavaScript、Python、移动端 SDK,简化客户端集成 ### 交互历史监控 全面的会话记录和数据分析能力: - **完整会话回放**:保存音频、转写文本、LLM 响应、工具调用的完整链路 - **实时仪表盘**:并发会话数、平均响应时间、错误率等关键指标可视化 - **会话检索与筛选**:按时间、助手、用户、关键词等维度快速定位会话 ### 自主部署 支持私有化部署,数据安全可控: - **Docker 一键部署**:提供 docker-compose 配置,一行命令启动完整平台 - **模型本地化**:支持云端模型和本地私有化模型两种方案  ## 核心功能 | 功能模块 | 描述 | |---------|------| | **助手管理** | 创建、配置、测试 AI 助手 | | **工作流** | 可视化流程编排 | | **模型库** | LLM/ASR/语音模型配置 | | **知识库** | RAG 文档知识管理 | | **历史记录** | 对话日志查询与分析 | | **自动化测试** | 批量测试与质量评估 | | **仪表盘** | 实时数据统计与可视化分析 | ## 快速导航