# 效果评估

效果评估帮助你系统地衡量和改进助手的对话质量。

## 评估维度

### 核心指标

| 指标 | 说明 | 计算方式 |
|------|------|---------|
| **解决率** | 用户问题被成功解决的比例 | 已解决 / 总对话数 |
| **准确率** | 回复内容正确的比例 | 正确回复 / 总回复数 |
| **满意度** | 用户满意的对话比例 | 满意评价 / 总评价数 |
| **转人工率** | 需要人工介入的比例 | 转人工数 / 总对话数 |

### 性能指标

| 指标 | 说明 | 建议值 |
|------|------|--------|
| **首次响应时间** | 用户输入到首次回复的时间 | < 2s |
| **平均对话轮次** | 解决问题需要的平均轮数 | < 5 轮 |
| **平均对话时长** | 单次对话的平均时长 | 视场景而定 |

## 配置评估标准

在助手配置中设置评估标准：

### 解决标准

定义什么情况视为"问题已解决"：

```
评估标准：solved_inquiry
描述：用户的问题得到了满意的解答

成功条件：
- 用户明确表示问题已解决
- 用户表示感谢并结束对话
- 用户获得了所需信息

失败条件：
- 用户要求转人工
- 用户多次重复相同问题
- 用户表达不满
```

### 质量标准

定义回复质量的评估维度：

```
评估维度：
1. 准确性 - 信息是否正确
2. 完整性 - 是否回答了用户所有问题
3. 相关性 - 回复是否切题
4. 简洁性 - 是否避免了冗余信息
5. 语气 - 是否保持了友好专业的态度
```

## 数据收集

### 自动收集

系统自动收集以下数据：

- 对话内容和时间戳
- 工具调用记录
- 错误和异常
- 转人工事件

### 用户反馈

配置用户反馈收集：

1. 对话结束后显示满意度评价
2. 收集用户评分（1-5 分）
3. 可选的文字反馈

### 数据提取

配置需要从对话中提取的信息：

```
数据提取项：

1. user_intent
   描述：用户的主要意图
   类型：string

2. issue_category
   描述：问题分类
   类型：enum [产品问题, 订单问题, 技术问题, 其他]

3. resolution_status
   描述：解决状态
   类型：enum [已解决, 未解决, 转人工]
```

## 评估报告

### 查看报告

在 **数据分析** > **效果评估** 页面查看：

1. **总体概览** - 核心指标趋势图
2. **分类分析** - 按问题类型的评估结果
3. **时段分析** - 不同时间段的表现
4. **详细记录** - 单条对话的评估结果

### 报告示例

```
评估报告 - 2025年1月

总对话数：1,234
解决率：78.5%
准确率：85.2%
平均满意度：4.2/5
转人工率：12.3%

问题分类分布：
- 产品问题：45%
- 订单问题：30%
- 技术问题：15%
- 其他：10%

改进建议：
1. 订单问题解决率较低（65%），建议补充订单相关知识库
2. 技术问题转人工率高（25%），建议增加技术支持工具
```

## 持续改进

### 改进流程

1. **收集数据** - 持续收集对话和评估数据
2. **分析问题** - 找出低分对话的共性
3. **制定方案** - 针对问题制定改进措施
4. **实施改进** - 更新提示词、知识库或工具
5. **验证效果** - 观察改进后的指标变化

### 常见改进措施

| 问题 | 改进措施 |
|------|---------|
| 回复不准确 | 优化提示词，补充知识库 |
| 无法理解问题 | 增加示例，优化 ASR 热词 |
| 回复太长 | 在提示词中限制长度 |
| 缺少专业知识 | 上传相关文档到知识库 |
| 工具调用失败 | 检查工具配置和 API 状态 |

### A/B 测试

对比不同配置的效果：

1. 创建助手的变体版本
2. 按比例分配流量
3. 收集两个版本的评估数据
4. 比较各项指标
5. 选择效果更好的版本

## 下一步

- [自动化测试](autotest.md) - 批量测试助手
- [历史记录](history.md) - 查看对话详情
- [提示词指南](../concepts/assistants/prompts.md) - 优化提示词