豆包如何开启相似问题自动合并降低重复答疑?

功能定位:为什么必须“合并相似问题”
在抖音企业号、微信群或 Web 嵌入的豆包智能体里,用户提问往往高度重复:运费、优惠券、发货时间……若每条都触发完整 LLM 推理,不仅浪费 256k 上下文窗口,还会把 Stars 代币消耗拉满。豆包 6.8.0 起上线的「相似问题自动合并」把语义距离≤设定阈值的提问归并到同一答案,官方称为「FAQ-Dedup」。
经验性观察:当频道日更 200 条提问、重复率≥35% 时,开启后总调用次数可下降约三成,答案返回延迟从平均 2.3 s 降至 1.6 s(测试环境:Doubao-1.5-Pro-256k,Wi-Fi,无并发限流)。
与“关键词回复”有何不同
关键词回复是字面匹配,相似合并采用向量语义。举例:用户 A 问「可以发香港吗?」,B 问「支持香港配送?」,关键词规则需写两条;语义模型把两句映射到同一向量簇,即可合并。注意:合并仅对「同一智能体、同一会话」生效,跨 Bot 不共享索引。
阈值配置决策树:先测再定
1. 采样:导出 7 天日志
桌面端:智能体后台 → 数据中心 → 对话日志 → 导出 CSV(上限 10 万行)。
2. 跑分:用官方「相似度批量工具」
工具入口:实验室 → 批量诊断 → 相似度分布图。系统会给出 0.60–0.95 区间内的聚类数量曲线。曲线拐点即为候选阈值。
3. 定值:三档经验参考
| 业务类型 | 推荐阈值 | 误合并风险 |
|---|---|---|
| 电商售前 FAQ | 0.82 | 低 |
| 教育题库答疑 | 0.88 | 中(题干相似但考点不同) |
| 政府政策咨询 | 0.90+ | 高(一词差,政策不同) |
平台最短操作路径
Android / iOS 移动端
- 打开豆包 App → 底部「智能体」→ 选择目标 Bot → 右上角「管理」→「问答优化」→ 开启「相似问题自动合并」开关。
- 在「相似度阈值」滑杆选择数值,点击「保存」立即生效。
桌面 Web
- https://bot.doubao.com → 登录 → 我的智能体 → 设置 →「问答优化」→ 开启「相似问题自动合并」。
- 如需回退,关闭开关即可,系统 30 分钟内清空缓存向量。
例外与黑白名单:必须留出口子
即使阈值设到 0.93,仍可能把「退货」与「换货」合并。官方提供「例外关键词」文本框,每行一条,命中即跳过合并。建议把「退货/退款/发票/投诉」等高频但政策差异大的词写入。
与第三方客服系统协同
若你把豆包 Bot 嵌入飞书或淘宝旺旺,需关闭「合并后主动推送」选项(路径:问答优化 → 高级 → 关闭「推送合并标识」)。否则外部系统会收到「该答案由相似问题自动生成」标记,部分 CRM 会误判为异常消息而拦截。
故障排查速查表
| 现象 | 可能原因 | 验证步骤 | 处置 |
|---|---|---|---|
| 合并率始终为 0 | 未开启长记忆 | 检查「记忆抽屉」是否关闭 | 开启后重试 |
| 答案出现乱码 | 导出 PPT 字体嵌入失败 | 换思源黑体/关闭嵌入 | 见官方公告 4 月 5 日热更 |
| 阈值滑杆无法拖动 | 账号为「仅查看」角色 | 让主账号修改权限 | 刷新页面即可 |
适用 / 不适用场景清单
- 适用:标准电商售前、物流查询、账号绑定等高频单轮问答;频道日提问 ≥500 条且重复率自测 >30%。
- 不适用:医疗诊断、法律建议、论文辅导——因同一问法可能隐含不同个案事实,合并易致误导;合规要求「一对一」场景亦应关闭。
最佳实践 6 条速览
- 先采样、后设阈值,避免拍脑袋。
- 阈值 ≥0.90 时务必搭配「例外关键词」。
- 合并后答案首行加「共性回复」提示,降低用户落差。
- 每月重新跑分布图,随业务变更及时调整。
- 对外系统对接关闭「合并标识推送」,防止 CRM 拦截。
- 敏感行业(医疗、金融)优先关闭,走人工复核流程。
验证与观测方法
开启后,在「数据中心 → 问答效率」面板可看「合并率」「节省 Tokens」两项指标。建议观测 7 日再决定是否下调阈值;若合并率 >45% 且投诉标签未增加,可认为调优达标。
FAQ - 常见问题结构化数据
相似合并是否影响答案质量?
阈值设置合理(0.82–0.88)时,经验性观察投诉率无明显上升;若低于 0.80,易把「退货」「换货」混为一谈,引发差评。
可以针对不同渠道设置不同阈值吗?
截至当前版本,阈值仅支持 Bot 级别,不支持渠道级差异。需要拆分多个 Bot 实现不同策略。
关闭合并后,历史索引会立即清除吗?
系统会在 30 分钟内清空向量缓存,但已合并的历史对话仍保留原始日志,不影响审计。
收尾:下一步行动清单
相似问题自动合并是豆包 6.8.0 节省成本最直观的开关,却也是误伤高敏问答的「双刃剑」。建议你今晚就导出 7 天日志,跑一遍分布图,把阈值定在拐点附近,再补 5–10 条例外关键词;一周后观察「合并率」与「投诉标签」是否同步上涨,若没有,你就成功把重复答疑成本砍掉了三分之一。下一步,把省下的 Stars 预算投入到「长论文总结」等更具创造性的场景,让 AI 真正花在刀刃上。