- Revised site name and description for clarity and detail. - Updated navigation structure to better reflect the organization of content. - Improved changelog entries for better readability and consistency. - Migrated assistant configuration and prompt guidelines to new documentation paths. - Enhanced core concepts section to clarify the roles and capabilities of assistants and engines. - Streamlined workflow documentation to provide clearer guidance on configuration and usage.
167 lines
3.9 KiB
Markdown
167 lines
3.9 KiB
Markdown
# 效果评估
|
||
|
||
效果评估帮助你系统地衡量和改进助手的对话质量。
|
||
|
||
## 评估维度
|
||
|
||
### 核心指标
|
||
|
||
| 指标 | 说明 | 计算方式 |
|
||
|------|------|---------|
|
||
| **解决率** | 用户问题被成功解决的比例 | 已解决 / 总对话数 |
|
||
| **准确率** | 回复内容正确的比例 | 正确回复 / 总回复数 |
|
||
| **满意度** | 用户满意的对话比例 | 满意评价 / 总评价数 |
|
||
| **转人工率** | 需要人工介入的比例 | 转人工数 / 总对话数 |
|
||
|
||
### 性能指标
|
||
|
||
| 指标 | 说明 | 建议值 |
|
||
|------|------|--------|
|
||
| **首次响应时间** | 用户输入到首次回复的时间 | < 2s |
|
||
| **平均对话轮次** | 解决问题需要的平均轮数 | < 5 轮 |
|
||
| **平均对话时长** | 单次对话的平均时长 | 视场景而定 |
|
||
|
||
## 配置评估标准
|
||
|
||
在助手配置中设置评估标准:
|
||
|
||
### 解决标准
|
||
|
||
定义什么情况视为"问题已解决":
|
||
|
||
```
|
||
评估标准:solved_inquiry
|
||
描述:用户的问题得到了满意的解答
|
||
|
||
成功条件:
|
||
- 用户明确表示问题已解决
|
||
- 用户表示感谢并结束对话
|
||
- 用户获得了所需信息
|
||
|
||
失败条件:
|
||
- 用户要求转人工
|
||
- 用户多次重复相同问题
|
||
- 用户表达不满
|
||
```
|
||
|
||
### 质量标准
|
||
|
||
定义回复质量的评估维度:
|
||
|
||
```
|
||
评估维度:
|
||
1. 准确性 - 信息是否正确
|
||
2. 完整性 - 是否回答了用户所有问题
|
||
3. 相关性 - 回复是否切题
|
||
4. 简洁性 - 是否避免了冗余信息
|
||
5. 语气 - 是否保持了友好专业的态度
|
||
```
|
||
|
||
## 数据收集
|
||
|
||
### 自动收集
|
||
|
||
系统自动收集以下数据:
|
||
|
||
- 对话内容和时间戳
|
||
- 工具调用记录
|
||
- 错误和异常
|
||
- 转人工事件
|
||
|
||
### 用户反馈
|
||
|
||
配置用户反馈收集:
|
||
|
||
1. 对话结束后显示满意度评价
|
||
2. 收集用户评分(1-5 分)
|
||
3. 可选的文字反馈
|
||
|
||
### 数据提取
|
||
|
||
配置需要从对话中提取的信息:
|
||
|
||
```
|
||
数据提取项:
|
||
|
||
1. user_intent
|
||
描述:用户的主要意图
|
||
类型:string
|
||
|
||
2. issue_category
|
||
描述:问题分类
|
||
类型:enum [产品问题, 订单问题, 技术问题, 其他]
|
||
|
||
3. resolution_status
|
||
描述:解决状态
|
||
类型:enum [已解决, 未解决, 转人工]
|
||
```
|
||
|
||
## 评估报告
|
||
|
||
### 查看报告
|
||
|
||
在 **数据分析** > **效果评估** 页面查看:
|
||
|
||
1. **总体概览** - 核心指标趋势图
|
||
2. **分类分析** - 按问题类型的评估结果
|
||
3. **时段分析** - 不同时间段的表现
|
||
4. **详细记录** - 单条对话的评估结果
|
||
|
||
### 报告示例
|
||
|
||
```
|
||
评估报告 - 2025年1月
|
||
|
||
总对话数:1,234
|
||
解决率:78.5%
|
||
准确率:85.2%
|
||
平均满意度:4.2/5
|
||
转人工率:12.3%
|
||
|
||
问题分类分布:
|
||
- 产品问题:45%
|
||
- 订单问题:30%
|
||
- 技术问题:15%
|
||
- 其他:10%
|
||
|
||
改进建议:
|
||
1. 订单问题解决率较低(65%),建议补充订单相关知识库
|
||
2. 技术问题转人工率高(25%),建议增加技术支持工具
|
||
```
|
||
|
||
## 持续改进
|
||
|
||
### 改进流程
|
||
|
||
1. **收集数据** - 持续收集对话和评估数据
|
||
2. **分析问题** - 找出低分对话的共性
|
||
3. **制定方案** - 针对问题制定改进措施
|
||
4. **实施改进** - 更新提示词、知识库或工具
|
||
5. **验证效果** - 观察改进后的指标变化
|
||
|
||
### 常见改进措施
|
||
|
||
| 问题 | 改进措施 |
|
||
|------|---------|
|
||
| 回复不准确 | 优化提示词,补充知识库 |
|
||
| 无法理解问题 | 增加示例,优化 ASR 热词 |
|
||
| 回复太长 | 在提示词中限制长度 |
|
||
| 缺少专业知识 | 上传相关文档到知识库 |
|
||
| 工具调用失败 | 检查工具配置和 API 状态 |
|
||
|
||
### A/B 测试
|
||
|
||
对比不同配置的效果:
|
||
|
||
1. 创建助手的变体版本
|
||
2. 按比例分配流量
|
||
3. 收集两个版本的评估数据
|
||
4. 比较各项指标
|
||
5. 选择效果更好的版本
|
||
|
||
## 下一步
|
||
|
||
- [自动化测试](autotest.md) - 批量测试助手
|
||
- [历史记录](history.md) - 查看对话详情
|
||
- [提示词指南](../concepts/assistants/prompts.md) - 优化提示词
|