自研记忆系统看似简单,实则隐藏四大技术深坑,往往让三周的预估工期膨胀到三个月的底层基建重构:
- 存入易、召回难:将对话历史存入向量库并不复杂,但在下一轮对话中精准召回「最相关的信息」非常困难。检索质量不达标时,召回五条信息中四条是无效噪音,反而带偏模型的判断方向。
- 只增不减、记忆混乱:用户上月偏好简洁回答,本月又希望讲解更详细。如果系统只追加不更新,两条矛盾的偏好信息并存,越用脏数据越多,导致 Agent 行为前后不一致。
- 上下文堆砌适得其反:直接将全部历史塞进 Prompt 看似省事,实际 Token 成本翻倍、响应延迟增加,模型在冗余信息中筛选有效内容,准确率不升反降。长上下文不等于好记忆,很多时候只是更昂贵的噪音。
- Demo 流畅、生产不稳:单机测试表现良好,一上多实例生产环境便问题频发——实例间记忆不互通、实例销毁时记忆丢失、高并发下记忆提取严重拖慢主链路响应。