- Revised site name and description for clarity and detail. - Updated navigation structure to better reflect the organization of content. - Improved changelog entries for better readability and consistency. - Migrated assistant configuration and prompt guidelines to new documentation paths. - Enhanced core concepts section to clarify the roles and capabilities of assistants and engines. - Streamlined workflow documentation to provide clearer guidance on configuration and usage.
3.9 KiB
3.9 KiB
效果评估
效果评估帮助你系统地衡量和改进助手的对话质量。
评估维度
核心指标
| 指标 | 说明 | 计算方式 |
|---|---|---|
| 解决率 | 用户问题被成功解决的比例 | 已解决 / 总对话数 |
| 准确率 | 回复内容正确的比例 | 正确回复 / 总回复数 |
| 满意度 | 用户满意的对话比例 | 满意评价 / 总评价数 |
| 转人工率 | 需要人工介入的比例 | 转人工数 / 总对话数 |
性能指标
| 指标 | 说明 | 建议值 |
|---|---|---|
| 首次响应时间 | 用户输入到首次回复的时间 | < 2s |
| 平均对话轮次 | 解决问题需要的平均轮数 | < 5 轮 |
| 平均对话时长 | 单次对话的平均时长 | 视场景而定 |
配置评估标准
在助手配置中设置评估标准:
解决标准
定义什么情况视为"问题已解决":
评估标准:solved_inquiry
描述:用户的问题得到了满意的解答
成功条件:
- 用户明确表示问题已解决
- 用户表示感谢并结束对话
- 用户获得了所需信息
失败条件:
- 用户要求转人工
- 用户多次重复相同问题
- 用户表达不满
质量标准
定义回复质量的评估维度:
评估维度:
1. 准确性 - 信息是否正确
2. 完整性 - 是否回答了用户所有问题
3. 相关性 - 回复是否切题
4. 简洁性 - 是否避免了冗余信息
5. 语气 - 是否保持了友好专业的态度
数据收集
自动收集
系统自动收集以下数据:
- 对话内容和时间戳
- 工具调用记录
- 错误和异常
- 转人工事件
用户反馈
配置用户反馈收集:
- 对话结束后显示满意度评价
- 收集用户评分(1-5 分)
- 可选的文字反馈
数据提取
配置需要从对话中提取的信息:
数据提取项:
1. user_intent
描述:用户的主要意图
类型:string
2. issue_category
描述:问题分类
类型:enum [产品问题, 订单问题, 技术问题, 其他]
3. resolution_status
描述:解决状态
类型:enum [已解决, 未解决, 转人工]
评估报告
查看报告
在 数据分析 > 效果评估 页面查看:
- 总体概览 - 核心指标趋势图
- 分类分析 - 按问题类型的评估结果
- 时段分析 - 不同时间段的表现
- 详细记录 - 单条对话的评估结果
报告示例
评估报告 - 2025年1月
总对话数:1,234
解决率:78.5%
准确率:85.2%
平均满意度:4.2/5
转人工率:12.3%
问题分类分布:
- 产品问题:45%
- 订单问题:30%
- 技术问题:15%
- 其他:10%
改进建议:
1. 订单问题解决率较低(65%),建议补充订单相关知识库
2. 技术问题转人工率高(25%),建议增加技术支持工具
持续改进
改进流程
- 收集数据 - 持续收集对话和评估数据
- 分析问题 - 找出低分对话的共性
- 制定方案 - 针对问题制定改进措施
- 实施改进 - 更新提示词、知识库或工具
- 验证效果 - 观察改进后的指标变化
常见改进措施
| 问题 | 改进措施 |
|---|---|
| 回复不准确 | 优化提示词,补充知识库 |
| 无法理解问题 | 增加示例,优化 ASR 热词 |
| 回复太长 | 在提示词中限制长度 |
| 缺少专业知识 | 上传相关文档到知识库 |
| 工具调用失败 | 检查工具配置和 API 状态 |
A/B 测试
对比不同配置的效果:
- 创建助手的变体版本
- 按比例分配流量
- 收集两个版本的评估数据
- 比较各项指标
- 选择效果更好的版本