Files

Xin Wang 2418df80e5 Revamp documentation structure in mkdocs.yml by reorganizing navigation for improved accessibility. Remove outdated content from previous sections and introduce new topics including detailed guides on assistant management, configuration options, and tool integrations. Enhance API reference documentation with comprehensive error codes and WebSocket protocol details. Add new sections for automated testing, data analysis, and knowledge base management, ensuring a cohesive and user-friendly documentation experience.

2026-03-01 22:38:50 +08:00

3.8 KiB

Raw Blame History

效果评估

效果评估帮助你系统地衡量和改进助手的对话质量。

评估维度

核心指标

指标	说明	计算方式
解决率	用户问题被成功解决的比例	已解决 / 总对话数
准确率	回复内容正确的比例	正确回复 / 总回复数
满意度	用户满意的对话比例	满意评价 / 总评价数
转人工率	需要人工介入的比例	转人工数 / 总对话数

性能指标

指标	说明	建议值
首次响应时间	用户输入到首次回复的时间	< 2s
平均对话轮次	解决问题需要的平均轮数	< 5 轮
平均对话时长	单次对话的平均时长	视场景而定

配置评估标准

在助手配置中设置评估标准：

解决标准

定义什么情况视为"问题已解决"：

评估标准：solved_inquiry
描述：用户的问题得到了满意的解答

成功条件：
- 用户明确表示问题已解决
- 用户表示感谢并结束对话
- 用户获得了所需信息

失败条件：
- 用户要求转人工
- 用户多次重复相同问题
- 用户表达不满

质量标准

定义回复质量的评估维度：

评估维度：
1. 准确性 - 信息是否正确
2. 完整性 - 是否回答了用户所有问题
3. 相关性 - 回复是否切题
4. 简洁性 - 是否避免了冗余信息
5. 语气 - 是否保持了友好专业的态度

数据收集

自动收集

系统自动收集以下数据：

对话内容和时间戳
工具调用记录
错误和异常
转人工事件

用户反馈

配置用户反馈收集：

对话结束后显示满意度评价
收集用户评分（1-5 分）
可选的文字反馈

数据提取

配置需要从对话中提取的信息：

数据提取项：

1. user_intent
   描述：用户的主要意图
   类型：string

2. issue_category
   描述：问题分类
   类型：enum [产品问题, 订单问题, 技术问题, 其他]

3. resolution_status
   描述：解决状态
   类型：enum [已解决, 未解决, 转人工]

评估报告

查看报告

在 数据分析 > 效果评估 页面查看：

总体概览 - 核心指标趋势图
分类分析 - 按问题类型的评估结果
时段分析 - 不同时间段的表现
详细记录 - 单条对话的评估结果

报告示例

评估报告 - 2025年1月

总对话数：1,234
解决率：78.5%
准确率：85.2%
平均满意度：4.2/5
转人工率：12.3%

问题分类分布：
- 产品问题：45%
- 订单问题：30%
- 技术问题：15%
- 其他：10%

改进建议：
1. 订单问题解决率较低（65%），建议补充订单相关知识库
2. 技术问题转人工率高（25%），建议增加技术支持工具

持续改进

改进流程

收集数据 - 持续收集对话和评估数据
分析问题 - 找出低分对话的共性
制定方案 - 针对问题制定改进措施
实施改进 - 更新提示词、知识库或工具
验证效果 - 观察改进后的指标变化

常见改进措施

问题	改进措施
回复不准确	优化提示词，补充知识库
无法理解问题	增加示例，优化 ASR 热词
回复太长	在提示词中限制长度
缺少专业知识	上传相关文档到知识库
工具调用失败	检查工具配置和 API 状态

A/B 测试

对比不同配置的效果：

创建助手的变体版本
按比例分配流量
收集两个版本的评估数据
比较各项指标
选择效果更好的版本

下一步

自动化测试 - 批量测试助手
历史记录 - 查看对话详情
提示词指南 - 优化提示词

3.8 KiB Raw Blame History Unescape Escape

效果评估

评估维度

核心指标

性能指标

配置评估标准

解决标准

质量标准

数据收集

自动收集

用户反馈

数据提取

评估报告

查看报告

报告示例

持续改进

改进流程

常见改进措施

A/B 测试

下一步

3.8 KiB

Raw Blame History