Files
AI-VideoAssistant/docs/content/analysis/evaluation.md

167 lines
3.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 效果评估
效果评估帮助你系统地衡量和改进助手的对话质量。
## 评估维度
### 核心指标
| 指标 | 说明 | 计算方式 |
|------|------|---------|
| **解决率** | 用户问题被成功解决的比例 | 已解决 / 总对话数 |
| **准确率** | 回复内容正确的比例 | 正确回复 / 总回复数 |
| **满意度** | 用户满意的对话比例 | 满意评价 / 总评价数 |
| **转人工率** | 需要人工介入的比例 | 转人工数 / 总对话数 |
### 性能指标
| 指标 | 说明 | 建议值 |
|------|------|--------|
| **首次响应时间** | 用户输入到首次回复的时间 | < 2s |
| **平均对话轮次** | 解决问题需要的平均轮数 | < 5 轮 |
| **平均对话时长** | 单次对话的平均时长 | 视场景而定 |
## 配置评估标准
在助手配置中设置评估标准:
### 解决标准
定义什么情况视为"问题已解决"
```
评估标准solved_inquiry
描述:用户的问题得到了满意的解答
成功条件:
- 用户明确表示问题已解决
- 用户表示感谢并结束对话
- 用户获得了所需信息
失败条件:
- 用户要求转人工
- 用户多次重复相同问题
- 用户表达不满
```
### 质量标准
定义回复质量的评估维度:
```
评估维度:
1. 准确性 - 信息是否正确
2. 完整性 - 是否回答了用户所有问题
3. 相关性 - 回复是否切题
4. 简洁性 - 是否避免了冗余信息
5. 语气 - 是否保持了友好专业的态度
```
## 数据收集
### 自动收集
系统自动收集以下数据:
- 对话内容和时间戳
- 工具调用记录
- 错误和异常
- 转人工事件
### 用户反馈
配置用户反馈收集:
1. 对话结束后显示满意度评价
2. 收集用户评分1-5 分)
3. 可选的文字反馈
### 数据提取
配置需要从对话中提取的信息:
```
数据提取项:
1. user_intent
描述:用户的主要意图
类型string
2. issue_category
描述:问题分类
类型enum [产品问题, 订单问题, 技术问题, 其他]
3. resolution_status
描述:解决状态
类型enum [已解决, 未解决, 转人工]
```
## 评估报告
### 查看报告
**数据分析** > **效果评估** 页面查看:
1. **总体概览** - 核心指标趋势图
2. **分类分析** - 按问题类型的评估结果
3. **时段分析** - 不同时间段的表现
4. **详细记录** - 单条对话的评估结果
### 报告示例
```
评估报告 - 2025年1月
总对话数1,234
解决率78.5%
准确率85.2%
平均满意度4.2/5
转人工率12.3%
问题分类分布:
- 产品问题45%
- 订单问题30%
- 技术问题15%
- 其他10%
改进建议:
1. 订单问题解决率较低65%),建议补充订单相关知识库
2. 技术问题转人工率高25%),建议增加技术支持工具
```
## 持续改进
### 改进流程
1. **收集数据** - 持续收集对话和评估数据
2. **分析问题** - 找出低分对话的共性
3. **制定方案** - 针对问题制定改进措施
4. **实施改进** - 更新提示词、知识库或工具
5. **验证效果** - 观察改进后的指标变化
### 常见改进措施
| 问题 | 改进措施 |
|------|---------|
| 回复不准确 | 优化提示词,补充知识库 |
| 无法理解问题 | 增加示例,优化 ASR 热词 |
| 回复太长 | 在提示词中限制长度 |
| 缺少专业知识 | 上传相关文档到知识库 |
| 工具调用失败 | 检查工具配置和 API 状态 |
### A/B 测试
对比不同配置的效果:
1. 创建助手的变体版本
2. 按比例分配流量
3. 收集两个版本的评估数据
4. 比较各项指标
5. 选择效果更好的版本
## 下一步
- [自动化测试](autotest.md) - 批量测试助手
- [历史记录](history.md) - 查看对话详情
- [提示词指南](../assistants/prompts.md) - 优化提示词