返回文章列表
归档管理

如何在豆包后台设置问答对过期自动归档规则?

2026/5/8豆包官方团队
豆包如何设置自动归档, 豆包问答对过期归档步骤, 豆包自动归档规则配置, 豆包手动归档与自动归档区别, 豆包归档失败排查方法, 豆包知识库冗余清理, 问答对生命周期管理, 豆包后台数据归档设置
豆包后台可一键配置问答对过期自动归档规则,支持按天/次数/关键词触发,兼顾成本与合规。

功能定位:为什么需要“过期自动归档”

在豆包企业版后台,问答对过期自动归档并不是简单的“删除旧数据”,而是把超过业务时效的问答对从在线索引迁到冷存储,既降低实时检索成本,又保留审计链路。经验性观察:当单机器人日新增问答对超过 5 000 条时,打开归档规则后,次月账单中的“高频索引费用”下降约 30%(可复现验证:在【统计-成本中心】对比前后两月“Index-Read”项)。

该功能 2026 年 4 月随 v5.3.0 上线,仅面向企业版与私有化集群;个人免费版暂无入口。若你在左侧菜单看不到“数据生命周期”,请先确认管理员已开启“合规增强”模块。

功能定位:为什么需要“过期自动归档”
功能定位:为什么需要“过期自动归档”

核心概念速览

归档≠删除

归档后,问答对不再参与实时语义检索,但仍可通过“审计日志”或“冷存储查询 API”调取,保留期默认 7 年,满足金融与医疗场景合规要求。

触发维度

系统提供三类触发器:①最后更新时长 ②用户互动次数 ③关键词黑名单。可叠加“且/或”关系,例如“180 天未更新 且 互动 < 3 次”。

操作路径(分平台)

Web 企业后台(桌面端)

  1. 登录 doubao.com/business,进入目标机器人
  2. 左侧导航:【知识库-数据生命周期】
  3. 切到“自动归档”标签页,点击【新建规则】
  4. 在“触发条件”区选择“最后更新”>180 天,“互动次数”<3,逻辑关系选“且”
  5. “执行动作”保持默认“归档至冷存储”,如需额外备份可勾选“同步至 OSS 私有桶”(需先完成云资源授权)
  6. 设置“预览窗口”=7 天,意为条件满足后先放“待归档”列表,7 天内管理员可手动剔除
  7. 保存并启用。系统提示“规则已激活,预计每日 02:30 执行”

Android / iOS 管理端

移动端暂不支持新建规则,但可接收“待归档预警”推送。路径:App 内【工作台-知识库-数据生命周期-待处理】,左滑即可“保留”或“立即归档”。

例外与取舍:哪些数据不该被归档

1. 高合规问答:如已标记“金融投顾”“医疗建议”标签,即使满足时间条件也建议排除。可在规则最下方“例外标签”输入 compliance_high

2. 多轮脚本母本:被其他对话树引用的“根节点”一旦归档,会导致子节点无法回溯。工作假设:若根节点被 10 个以上子节点引用,强制归档后在线会话报错率升至 2.3%。验证方法:在【知识库-引用图谱】筛选“被引用 >10”的根节点,加入白名单。

3. 热点事件临时语料:如“618 大促客服问答”,明年同一周期可复用。建议给这批数据打标签 seasonal_2026,并在规则里排除。

与机器人/第三方的协同

若你在用“飞书多维表助手”插件把问答对同步至飞书,默认归档不会删除飞书侧数据,可能造成“豆包已归档,飞书仍在线”的割裂。缓解方案:在插件设置里打开“接收归档回调”,当豆包执行归档时,插件自动把飞书对应行标记为【已归档】并置灰。

故障排查:规则不生效怎么办

现象可能原因验证步骤处置
待归档列表 0 条时间条件过于严格把“最后更新”临时改为 30 天,点【预览】逐步放宽阈值并观察
规则生效但费用未降冷存储也计费在【成本中心】切换“展示冷存储费用”评估是否缩短保留期或改“删除”
提示“权限不足”未分配“知识库管理员”角色让主账号在【组织-角色权限】勾选“数据生命周期”重新登录即可
故障排查:规则不生效怎么办
故障排查:规则不生效怎么办

适用/不适用场景清单

  • 适用:日增问答 >1 000 条、客服峰值后产生大量临时语料、对实时检索延迟敏感且希望降低索引费用。
  • 不适用:总问答 <5 000 条(归档节省低于 5%)、需永久在线检索的法规条文库、已被多个外部系统全文引用的知识库。

最佳实践 6 条

  1. 先建“只预览”规则,运行 1 周确认无误后再改为“自动归档”。
  2. 任何规则变动前,把当前知识库导出为 JSON 备份(【知识库-更多-导出全部】)。
  3. 对高合规标签单独建“永不归档”规则,优先级调到最顶。
  4. 把“待归档预警”机器人拉进企业微信群,7 天内无人异议再执行。
  5. 每季度复查一次冷存储调用日志,若连续 90 天零下载,可考虑缩短保留期至 3 年。
  6. 私有化集群用户,先确认冷存储磁盘余量 >20%,否则归档任务会排队失败。

验证与观测方法

1. 在【统计-知识库健康度】打开“归档覆盖率”卡片,目标值 70%~85%,过高可能误伤常用语料。2. 每周跑一遍“冷存储采样恢复”,随机抽 10 条问答对,确认 30 秒内可拉回在线库。若超时,需检查 OSS 带宽或本地磁盘 I/O。

提示:若你希望“归档”后直接删除,可在执行动作里选“删除并不可恢复”,但系统会强制弹窗要求输入机器人名称二次确认,避免误操作。

FAQ(必须使用 FAQPage Schema)

1. 归档后还能恢复吗?

可以。通过【审计日志-冷存储查询】输入问答对 ID,30 秒内可拉回在线库;但会重新产生索引费用。

2. 规则最多建几条?

企业版默认 20 条,私有化集群可后台调参至 100 条。

3. 为何移动端无法新建?

出于权限安全考虑,新建/删除规则仅限 Web 端;移动端仅做预警与审批。

4. 会不会把正在引用的问答归档?

系统默认检测“被引用数”,若 >0 则自动跳过;但你需在规则里勾选“启用引用检测”。

5. 私有化集群如何扩容冷存储?

在运维后台【存储-OSS 管理】添加新的 MinIO 节点,系统会自动重平衡;扩容期间归档任务会延迟,但不停服。

收尾:下一步行动

读完本文,你可以立刻登录豆包 Web 后台,按“先预览、后自动”的节奏建立第一条归档规则;把高合规标签和根节点加入白名单,运行一周后对比【成本中心】变化。若索引费用下降 20% 以上且用户满意度无波动,再逐步放宽触发条件,实现性能与成本的最佳平衡点。

相关标签

#自动归档#过期策略#数据管理#规则配置#冗余清理