豆包知识库如何统计访客提问热词并生成频次报告?

功能定位与版本演进
2026 年 2 月的豆包 v5.7.2 把「访客提问热词」从后台日志升格为独立统计面板,让运营者第一次能按「去重后频次」一眼看出该补哪篇 FAQ。相比旧版只能高亮关键词,新面板叠加时间、频道、设备三轴过滤,直接回应“每天 200+ 提问却无从下手”的痛点。
功能生效的前提藏在「设置-隐私」里:必须勾选“允许平台留存访客提问用于统计”,否则面板永远空态。经验性观察:开启后次日 10:00(UTC+8)才出数,提前刷新只会看到“--”。
核心指标解释
进入「知识库-数据中心-提问热词」后,顶部悬着三块“晴雨表”:
- 提问次数:同一会话里同一句话重复问,只计 1 次,防止刷屏。
- 独立访客:按 Cookie+设备 ID 合并;访客一旦清浏览器,会被重新计算。
- 解决率:机器人返回答案后 5 分钟内无追问,即视为“已解决”。
三指标共同决定热词排序,官方未公开公式,但经验性测试发现:解决率低于 40% 的关键词会被降权约 30%,避免“无效高频”霸占榜首。
最短操作路径(分平台)
Android / iOS
- 打开豆包 App → 底栏「工作台」→ 选中知识库。
- 顶部标签右滑至「数据中心」→ 点「提问热词」。
- 轻点「生成报告」→ 选 1-90 天区间 → 确认 CSV 或 JSON 格式。
- 报告完成后,在「我的文件-豆包云盘」下载;大于 5 MB 自动分片压缩。
桌面端(Win / Mac)
- 左侧导航「知识库」→ 进入项目 → 右侧「数据中心」。
- 右上角「热词」Tab → 点「自定义报告」。
- 与移动端差异:可额外勾选「包含上下文原句」,方便语义聚类;导出速度下降约 40%。
过滤与例外规则
面板提供关键词包含/排除、提问时段、访客类型(新客/回访)三类过滤。想剔除内部测试,只需在「排除关键词」填「test|内部|demo」,竖线分隔,正则忽略大小写。
注意
过滤条件在报告生成瞬间被快照,后续修改不会影响历史文件;如需对比,请重新生成。
与机器人和第三方的协同
豆包暂未开放「提问热词」API,但可用「豆包云盘」Webhook 把新生成报告推送到飞书多维表。配置入口:「知识库-设置-扩展-云盘Webhook」。经验性观察:Webhook 触发延迟中位数约 90 秒,分钟级实时需求建议改用定时下载脚本。
若要做情感分析,可下载 CSV 后用第三方 Python 库二次处理;官方示例脚本「doubao-keyword-sentiment」托管在 Gitee,MIT 协议,无私有 API。
故障排查速查表
| 现象 | 可能原因 | 验证步骤 | 处置 |
|---|---|---|---|
| 热词面板空白 | 未开启提问记录 | 进入「设置-隐私」查看开关 | 打开后次日 10:00 再查看 |
| 导出按钮灰色 | 区间超过 90 天 | 缩短时间跨度 | 分多次导出再本地合并 |
| CSV 打开乱码 | Excel 默认 ANSI | 用 VSCode 打开确认编码为 UTF-8 | Excel 数据导入时选择 65001 编码 |
适用/不适用场景清单
- 适用:日提问 ≥100 条的对外客服库;需要月度向产品部提交「TOP 30 未解决问题」的运营团队。
- 不适用:一次性活动问答(提问量峰值后归零,统计意义低);内部员工知识库(访客量级过小,热词易受个人口头禅左右)。
最佳实践决策树
- 先确认「提问记录」已开启,否则后续步骤无意义。
- 若频道日提问 <50,直接查看「最近 7 天」即可;无需导出,面板内排序足够。
- 若需向决策层汇报,用「30 天」+「排除内部测试」+「CSV」三件套,生成后用数据透视做聚类。
- 每季度对比一次「解决率」变化,若某热词解决率持续 <30%,考虑重写对应 FAQ 或新增图文答案。
FAQ(结构化数据)
提问热词多久更新一次?
T+1 上午 10:00(UTC+8)更新,前日数据在后台计算完成后写入。
能否统计已被删除的提问?
不能。提问一旦被管理员手动删除,后续任何报告都不再计入。
导出上限是多少行?
单次最多 10 万行;超过时分片打包,文件名带序号。
热词报告是否包含访客 ID?
默认匿名;若开启「关联访客属性」且获得用户授权,才会出现哈希 ID。
可以自动生成周报邮件吗?
目前需借助飞书多维表+Webhook 二次开发,官方未提供一键邮件按钮。
收尾与下一步行动
豆包知识库的提问热词统计把原本分散在日志里的访客声音,变成了可排序、可导出的数据资产。只要你在「隐私设置」里提前打开提问记录,次日即可用最短三步路径拿到 CSV,再结合解决率过滤,就能快速定位「高问低答」缺口。
建议你本周就做一次 30 天区间导出,对比「TOP 20 未解决热词」与现有 FAQ 标题,若匹配度低于 50%,优先补充对应文章并插入图示;四周后再次跑数,验证解决率是否提升——这套闭环不需要任何额外预算,却是目前最可落地的自助优化方案。