Files

Xin Wang b300b469dc Update documentation for Realtime Agent Studio with enhanced content and structure

- Revised site name and description for clarity and detail.
- Updated navigation structure to better reflect the organization of content.
- Improved changelog entries for better readability and consistency.
- Migrated assistant configuration and prompt guidelines to new documentation paths.
- Enhanced core concepts section to clarify the roles and capabilities of assistants and engines.
- Streamlined workflow documentation to provide clearer guidance on configuration and usage.

2026-03-09 05:38:43 +08:00

3.9 KiB

Raw Permalink Blame History

效果评估

效果评估帮助你系统地衡量和改进助手的对话质量。

评估维度

核心指标

指标	说明	计算方式
解决率	用户问题被成功解决的比例	已解决 / 总对话数
准确率	回复内容正确的比例	正确回复 / 总回复数
满意度	用户满意的对话比例	满意评价 / 总评价数
转人工率	需要人工介入的比例	转人工数 / 总对话数

性能指标

指标	说明	建议值
首次响应时间	用户输入到首次回复的时间	< 2s
平均对话轮次	解决问题需要的平均轮数	< 5 轮
平均对话时长	单次对话的平均时长	视场景而定

配置评估标准

在助手配置中设置评估标准：

解决标准

定义什么情况视为"问题已解决"：

评估标准：solved_inquiry
描述：用户的问题得到了满意的解答

成功条件：
- 用户明确表示问题已解决
- 用户表示感谢并结束对话
- 用户获得了所需信息

失败条件：
- 用户要求转人工
- 用户多次重复相同问题
- 用户表达不满

质量标准

定义回复质量的评估维度：

评估维度：
1. 准确性 - 信息是否正确
2. 完整性 - 是否回答了用户所有问题
3. 相关性 - 回复是否切题
4. 简洁性 - 是否避免了冗余信息
5. 语气 - 是否保持了友好专业的态度

数据收集

自动收集

系统自动收集以下数据：

对话内容和时间戳
工具调用记录
错误和异常
转人工事件

用户反馈

配置用户反馈收集：

对话结束后显示满意度评价
收集用户评分（1-5 分）
可选的文字反馈

数据提取

配置需要从对话中提取的信息：

数据提取项：

1. user_intent
   描述：用户的主要意图
   类型：string

2. issue_category
   描述：问题分类
   类型：enum [产品问题, 订单问题, 技术问题, 其他]

3. resolution_status
   描述：解决状态
   类型：enum [已解决, 未解决, 转人工]

评估报告

查看报告

在 数据分析 > 效果评估 页面查看：

总体概览 - 核心指标趋势图
分类分析 - 按问题类型的评估结果
时段分析 - 不同时间段的表现
详细记录 - 单条对话的评估结果

报告示例

评估报告 - 2025年1月

总对话数：1,234
解决率：78.5%
准确率：85.2%
平均满意度：4.2/5
转人工率：12.3%

问题分类分布：
- 产品问题：45%
- 订单问题：30%
- 技术问题：15%
- 其他：10%

改进建议：
1. 订单问题解决率较低（65%），建议补充订单相关知识库
2. 技术问题转人工率高（25%），建议增加技术支持工具

持续改进

改进流程

收集数据 - 持续收集对话和评估数据
分析问题 - 找出低分对话的共性
制定方案 - 针对问题制定改进措施
实施改进 - 更新提示词、知识库或工具
验证效果 - 观察改进后的指标变化

常见改进措施

问题	改进措施
回复不准确	优化提示词，补充知识库
无法理解问题	增加示例，优化 ASR 热词
回复太长	在提示词中限制长度
缺少专业知识	上传相关文档到知识库
工具调用失败	检查工具配置和 API 状态

A/B 测试

对比不同配置的效果：

创建助手的变体版本
按比例分配流量
收集两个版本的评估数据
比较各项指标
选择效果更好的版本

下一步

自动化测试 - 批量测试助手
历史记录 - 查看对话详情
提示词指南 - 优化提示词

3.9 KiB Raw Permalink Blame History Unescape Escape

效果评估

评估维度

核心指标

性能指标

配置评估标准

解决标准

质量标准

数据收集

自动收集

用户反馈

数据提取

评估报告

查看报告

报告示例

持续改进

改进流程

常见改进措施

A/B 测试

下一步

3.9 KiB

Raw Permalink Blame History