Files
AI-VideoAssistant/docs/content/analysis/evaluation.md

3.8 KiB
Raw Blame History

效果评估

效果评估帮助你系统地衡量和改进助手的对话质量。

评估维度

核心指标

指标 说明 计算方式
解决率 用户问题被成功解决的比例 已解决 / 总对话数
准确率 回复内容正确的比例 正确回复 / 总回复数
满意度 用户满意的对话比例 满意评价 / 总评价数
转人工率 需要人工介入的比例 转人工数 / 总对话数

性能指标

指标 说明 建议值
首次响应时间 用户输入到首次回复的时间 < 2s
平均对话轮次 解决问题需要的平均轮数 < 5 轮
平均对话时长 单次对话的平均时长 视场景而定

配置评估标准

在助手配置中设置评估标准:

解决标准

定义什么情况视为"问题已解决"

评估标准solved_inquiry
描述:用户的问题得到了满意的解答

成功条件:
- 用户明确表示问题已解决
- 用户表示感谢并结束对话
- 用户获得了所需信息

失败条件:
- 用户要求转人工
- 用户多次重复相同问题
- 用户表达不满

质量标准

定义回复质量的评估维度:

评估维度:
1. 准确性 - 信息是否正确
2. 完整性 - 是否回答了用户所有问题
3. 相关性 - 回复是否切题
4. 简洁性 - 是否避免了冗余信息
5. 语气 - 是否保持了友好专业的态度

数据收集

自动收集

系统自动收集以下数据:

  • 对话内容和时间戳
  • 工具调用记录
  • 错误和异常
  • 转人工事件

用户反馈

配置用户反馈收集:

  1. 对话结束后显示满意度评价
  2. 收集用户评分1-5 分)
  3. 可选的文字反馈

数据提取

配置需要从对话中提取的信息:

数据提取项:

1. user_intent
   描述:用户的主要意图
   类型string

2. issue_category
   描述:问题分类
   类型enum [产品问题, 订单问题, 技术问题, 其他]

3. resolution_status
   描述:解决状态
   类型enum [已解决, 未解决, 转人工]

评估报告

查看报告

数据分析 > 效果评估 页面查看:

  1. 总体概览 - 核心指标趋势图
  2. 分类分析 - 按问题类型的评估结果
  3. 时段分析 - 不同时间段的表现
  4. 详细记录 - 单条对话的评估结果

报告示例

评估报告 - 2025年1月

总对话数1,234
解决率78.5%
准确率85.2%
平均满意度4.2/5
转人工率12.3%

问题分类分布:
- 产品问题45%
- 订单问题30%
- 技术问题15%
- 其他10%

改进建议:
1. 订单问题解决率较低65%),建议补充订单相关知识库
2. 技术问题转人工率高25%),建议增加技术支持工具

持续改进

改进流程

  1. 收集数据 - 持续收集对话和评估数据
  2. 分析问题 - 找出低分对话的共性
  3. 制定方案 - 针对问题制定改进措施
  4. 实施改进 - 更新提示词、知识库或工具
  5. 验证效果 - 观察改进后的指标变化

常见改进措施

问题 改进措施
回复不准确 优化提示词,补充知识库
无法理解问题 增加示例,优化 ASR 热词
回复太长 在提示词中限制长度
缺少专业知识 上传相关文档到知识库
工具调用失败 检查工具配置和 API 状态

A/B 测试

对比不同配置的效果:

  1. 创建助手的变体版本
  2. 按比例分配流量
  3. 收集两个版本的评估数据
  4. 比较各项指标
  5. 选择效果更好的版本

下一步