# 效果评估 效果评估帮助你系统地衡量和改进助手的对话质量。 ## 评估维度 ### 核心指标 | 指标 | 说明 | 计算方式 | |------|------|---------| | **解决率** | 用户问题被成功解决的比例 | 已解决 / 总对话数 | | **准确率** | 回复内容正确的比例 | 正确回复 / 总回复数 | | **满意度** | 用户满意的对话比例 | 满意评价 / 总评价数 | | **转人工率** | 需要人工介入的比例 | 转人工数 / 总对话数 | ### 性能指标 | 指标 | 说明 | 建议值 | |------|------|--------| | **首次响应时间** | 用户输入到首次回复的时间 | < 2s | | **平均对话轮次** | 解决问题需要的平均轮数 | < 5 轮 | | **平均对话时长** | 单次对话的平均时长 | 视场景而定 | ## 配置评估标准 在助手配置中设置评估标准: ### 解决标准 定义什么情况视为"问题已解决": ``` 评估标准:solved_inquiry 描述:用户的问题得到了满意的解答 成功条件: - 用户明确表示问题已解决 - 用户表示感谢并结束对话 - 用户获得了所需信息 失败条件: - 用户要求转人工 - 用户多次重复相同问题 - 用户表达不满 ``` ### 质量标准 定义回复质量的评估维度: ``` 评估维度: 1. 准确性 - 信息是否正确 2. 完整性 - 是否回答了用户所有问题 3. 相关性 - 回复是否切题 4. 简洁性 - 是否避免了冗余信息 5. 语气 - 是否保持了友好专业的态度 ``` ## 数据收集 ### 自动收集 系统自动收集以下数据: - 对话内容和时间戳 - 工具调用记录 - 错误和异常 - 转人工事件 ### 用户反馈 配置用户反馈收集: 1. 对话结束后显示满意度评价 2. 收集用户评分(1-5 分) 3. 可选的文字反馈 ### 数据提取 配置需要从对话中提取的信息: ``` 数据提取项: 1. user_intent 描述:用户的主要意图 类型:string 2. issue_category 描述:问题分类 类型:enum [产品问题, 订单问题, 技术问题, 其他] 3. resolution_status 描述:解决状态 类型:enum [已解决, 未解决, 转人工] ``` ## 评估报告 ### 查看报告 在 **数据分析** > **效果评估** 页面查看: 1. **总体概览** - 核心指标趋势图 2. **分类分析** - 按问题类型的评估结果 3. **时段分析** - 不同时间段的表现 4. **详细记录** - 单条对话的评估结果 ### 报告示例 ``` 评估报告 - 2025年1月 总对话数:1,234 解决率:78.5% 准确率:85.2% 平均满意度:4.2/5 转人工率:12.3% 问题分类分布: - 产品问题:45% - 订单问题:30% - 技术问题:15% - 其他:10% 改进建议: 1. 订单问题解决率较低(65%),建议补充订单相关知识库 2. 技术问题转人工率高(25%),建议增加技术支持工具 ``` ## 持续改进 ### 改进流程 1. **收集数据** - 持续收集对话和评估数据 2. **分析问题** - 找出低分对话的共性 3. **制定方案** - 针对问题制定改进措施 4. **实施改进** - 更新提示词、知识库或工具 5. **验证效果** - 观察改进后的指标变化 ### 常见改进措施 | 问题 | 改进措施 | |------|---------| | 回复不准确 | 优化提示词,补充知识库 | | 无法理解问题 | 增加示例,优化 ASR 热词 | | 回复太长 | 在提示词中限制长度 | | 缺少专业知识 | 上传相关文档到知识库 | | 工具调用失败 | 检查工具配置和 API 状态 | ### A/B 测试 对比不同配置的效果: 1. 创建助手的变体版本 2. 按比例分配流量 3. 收集两个版本的评估数据 4. 比较各项指标 5. 选择效果更好的版本 ## 下一步 - [自动化测试](autotest.md) - 批量测试助手 - [历史记录](history.md) - 查看对话详情 - [提示词指南](../concepts/assistants/prompts.md) - 优化提示词