Revamp documentation structure in mkdocs.yml by reorganizing navigation for improved accessibility. Remove outdated content from previous sections and introduce new topics including detailed guides on assistant management, configuration options, and tool integrations. Enhance API reference documentation with comprehensive error codes and WebSocket protocol details. Add new sections for automated testing, data analysis, and knowledge base management, ensuring a cohesive and user-friendly documentation experience.

This commit is contained in:
Xin Wang
2026-03-01 22:38:50 +08:00
parent 6a46ec69f4
commit 2418df80e5
33 changed files with 3664 additions and 693 deletions

View File

@@ -0,0 +1,59 @@
# 自动化测试
自动化测试帮助评估助手质量,确保对话效果符合预期。
## 概述
![自动化测试](../images/autotest.png)
## 测试类型
### 固定测试
预设问答对进行批量测试:
- 预先准备测试用例
- 支持期望答案对比
- 显示通过/失败状态
### 智能测试
AI 自动生成测试用例:
- 基于知识库内容生成问题
- 多角度覆盖测试
- 发现潜在问题
## 创建测试
### 步骤
1. 进入 **自动化测试** 页面
2. 点击 **新建测试**
3. 选择测试类型
4. 选择要测试的助手
5. 配置测试参数
6. 启动测试
### 测试配置
| 参数 | 说明 |
|------|------|
| 并发数 | 同时进行的测试数量 |
| 超时时间 | 单次对话超时限制 |
| 评分阈值 | 判断通过的分数字 |
## 测试结果
### 评估指标
| 指标 | 说明 |
|------|------|
| 准确率 | 回答正确的比例 |
| 完整度 | 回答信息是否完整 |
| 相关度 | 回复与问题的相关性 |
| 响应时间 | 平均回复耗时 |
### 查看详情
- 单条测试详情
- 错误分析
- 改进建议

View File

@@ -0,0 +1,27 @@
# 仪表盘
仪表盘提供系统运行状态的实时概览,帮助管理员快速掌握核心指标。
## 数据指标
![仪表盘](../images/dashboard.png)
### 核心指标卡
| 指标 | 说明 |
|------|------|
| **总对话数** | 系统累计处理的对话请求总数 |
| **回答率** | AI 成功回答的对话占比(不含转人工) |
| **平均时长** | 单次对话从开始到结束的平均秒数 |
| **人工转接率** | 需要人工介入处理的对话比例 |
### 实时数据
- 数据每 5 秒自动刷新
- 支持切换时间范围查看历史趋势
## 使用建议
1. 每日查看回答率变化,及时发现异常
2. 关注人工转接率,优化知识库覆盖
3. 分析平均时长,调整回复策略

View File

@@ -0,0 +1,166 @@
# 效果评估
效果评估帮助你系统地衡量和改进助手的对话质量。
## 评估维度
### 核心指标
| 指标 | 说明 | 计算方式 |
|------|------|---------|
| **解决率** | 用户问题被成功解决的比例 | 已解决 / 总对话数 |
| **准确率** | 回复内容正确的比例 | 正确回复 / 总回复数 |
| **满意度** | 用户满意的对话比例 | 满意评价 / 总评价数 |
| **转人工率** | 需要人工介入的比例 | 转人工数 / 总对话数 |
### 性能指标
| 指标 | 说明 | 建议值 |
|------|------|--------|
| **首次响应时间** | 用户输入到首次回复的时间 | < 2s |
| **平均对话轮次** | 解决问题需要的平均轮数 | < 5 轮 |
| **平均对话时长** | 单次对话的平均时长 | 视场景而定 |
## 配置评估标准
在助手配置中设置评估标准:
### 解决标准
定义什么情况视为"问题已解决"
```
评估标准solved_inquiry
描述:用户的问题得到了满意的解答
成功条件:
- 用户明确表示问题已解决
- 用户表示感谢并结束对话
- 用户获得了所需信息
失败条件:
- 用户要求转人工
- 用户多次重复相同问题
- 用户表达不满
```
### 质量标准
定义回复质量的评估维度:
```
评估维度:
1. 准确性 - 信息是否正确
2. 完整性 - 是否回答了用户所有问题
3. 相关性 - 回复是否切题
4. 简洁性 - 是否避免了冗余信息
5. 语气 - 是否保持了友好专业的态度
```
## 数据收集
### 自动收集
系统自动收集以下数据:
- 对话内容和时间戳
- 工具调用记录
- 错误和异常
- 转人工事件
### 用户反馈
配置用户反馈收集:
1. 对话结束后显示满意度评价
2. 收集用户评分1-5 分)
3. 可选的文字反馈
### 数据提取
配置需要从对话中提取的信息:
```
数据提取项:
1. user_intent
描述:用户的主要意图
类型string
2. issue_category
描述:问题分类
类型enum [产品问题, 订单问题, 技术问题, 其他]
3. resolution_status
描述:解决状态
类型enum [已解决, 未解决, 转人工]
```
## 评估报告
### 查看报告
**数据分析** > **效果评估** 页面查看:
1. **总体概览** - 核心指标趋势图
2. **分类分析** - 按问题类型的评估结果
3. **时段分析** - 不同时间段的表现
4. **详细记录** - 单条对话的评估结果
### 报告示例
```
评估报告 - 2025年1月
总对话数1,234
解决率78.5%
准确率85.2%
平均满意度4.2/5
转人工率12.3%
问题分类分布:
- 产品问题45%
- 订单问题30%
- 技术问题15%
- 其他10%
改进建议:
1. 订单问题解决率较低65%),建议补充订单相关知识库
2. 技术问题转人工率高25%),建议增加技术支持工具
```
## 持续改进
### 改进流程
1. **收集数据** - 持续收集对话和评估数据
2. **分析问题** - 找出低分对话的共性
3. **制定方案** - 针对问题制定改进措施
4. **实施改进** - 更新提示词、知识库或工具
5. **验证效果** - 观察改进后的指标变化
### 常见改进措施
| 问题 | 改进措施 |
|------|---------|
| 回复不准确 | 优化提示词,补充知识库 |
| 无法理解问题 | 增加示例,优化 ASR 热词 |
| 回复太长 | 在提示词中限制长度 |
| 缺少专业知识 | 上传相关文档到知识库 |
| 工具调用失败 | 检查工具配置和 API 状态 |
### A/B 测试
对比不同配置的效果:
1. 创建助手的变体版本
2. 按比例分配流量
3. 收集两个版本的评估数据
4. 比较各项指标
5. 选择效果更好的版本
## 下一步
- [自动化测试](autotest.md) - 批量测试助手
- [历史记录](history.md) - 查看对话详情
- [提示词指南](../assistants/prompts.md) - 优化提示词

View File

@@ -0,0 +1,46 @@
# 历史记录
历史记录保存所有对话日志,支持查询、统计和分析。
## 查看历史
![历史记录](../images/history.png)
### 筛选条件
| 条件 | 说明 |
|------|------|
| 时间范围 | 按开始/结束时间筛选 |
| 助手 | 选择特定助手 |
| 关键词 | 搜索对话内容 |
| 状态 | 全部/成功/人工 |
### 列表字段
| 字段 | 说明 |
|------|------|
| 对话 ID | 唯一标识符 |
| 助手名称 | 处理的 AI 助手 |
| 开始时间 | 对话起始时间 |
| 持续时长 | 对话持续时间 |
| 状态 | 正常/人工/异常 |
## 对话详情
点击任意记录可查看:
- 完整对话内容
- 用户/助手消息时间线
- 音频/视频附件(如有)
- 系统日志
## 导出数据
支持导出为:
- CSV 格式(表格数据)
- JSON 格式(完整日志)
## 数据统计
- 按日/周/月统计对话量
- 分析高峰时段
- 导出报表