
LongMemEval 之后,Agent Memory 为什么开始像一门独立工程学
最近三个月,Agent Memory 这条线最健康的变化之一,是它开始真正重视评测。
过去很多 memory 产品喜欢讲:
- “再也不会忘”
- “无限上下文”
- “像人一样长期记忆”
但真正做工程的人都知道,没有 benchmark,这些话没有多少比较价值。
LongMemEval 为什么重要
LongMemEval 的官方 GitHub 把它定义成一个测试 chat assistant 长期交互记忆能力的 benchmark,核心能力包括:
- information extraction
- multi-session reasoning
- knowledge updates
- temporal reasoning
- abstention
我认为这里最关键的是后面三个:
- knowledge updates
- temporal reasoning
- abstention
因为真实用户记忆最难的从来不是“记住一个事实”,而是:
- 旧事实后来变了
- 时间顺序会影响答案
- 根本不知道时要敢于说不知道
最近三个月 Memory 工程为什么突然更像一门学问
因为大家开始发现,memory 不是一个简单 feature,而是一整条 pipeline。
Supermemory 的 MemoryBench 框架把这件事拆得很清楚。官方文档里,它支持:
- 多 provider
- 多 benchmark
- 多 judge model
- 可 checkpoint 的完整评测流水线
而且 Benchmark 不是只有一个。MemoryBench 目前至少支持:
- LongMemEval
- LoCoMo
- ConvoMem
这很重要,因为不同 benchmark 测的东西不一样。
| Benchmark | 更偏什么 |
|---|---|
| LongMemEval | 长期会话、知识更新、时间推理 |
| LoCoMo | 长上下文记忆和复杂事实召回 |
| ConvoMem | 个性化、偏好和证据学习 |
也就是说,单一分数已经越来越不够看。
为什么最近几个月大家开始疯狂比 LongMemEval
因为它非常接近真实产品痛点。
相比“给你一大段文档然后回答”,LongMemEval 更像真实助手会遇到的场景:
- 多次会话
- 时间戳存在
- 同一件事会更新
- 并不是每个问题都该答得出来
这使得很多“只会 semantic search”的方案开始暴露短板。
三种典型路线在 benchmark 上各暴露什么问题
1. 纯向量检索
长处是简单、快、好接。
短处是:
- 时间变化处理弱
- 冲突知识容易混
- 多实体关系容易糊
2. 图谱 / 关系增强
长处是更擅长:
- 实体关系
- 时间关系
- 多跳推理
短处是:
- 抽取质量决定上限
- 图谱构建和维护成本更高
3. 观察式 / 压缩式记忆
比如 Mastra 的 Observational Memory 这种路线,长处是:
- context 更稳定
- prompt cache 更友好
- coding agent 场景更顺
但它也依赖高质量的 observation / reflection 机制,不是“压缩一下”就能自动变强。
我最在意的不是分数,而是可复现
MemoryBench 这类工具最有价值的地方,不只是给出一张排行榜,而是让团队能更系统地问这些问题:
- provider 换了会怎样
- judge model 换了会怎样
- benchmark 换了会怎样
- 某个 memory 方案在哪种问题类型上崩
这比社交媒体上的“我们 95% 了”有意义得多。
最近几个月 Memory 评测的一条共识
从 Supermemory、Mastra、Mem0、社区长线程这些讨论放在一起看,我觉得一个共识已经很清楚了:
memory 不是看你存了多少,而是看你在知识更新、时间推理和多会话里还能不能稳定答对。
这也是为什么 LongMemEval 这类 benchmark 变成高频被引用对象。
我的判断
Agent Memory 现在已经进入一个更像数据库和检索工程的阶段。接下来真正会拉开差距的,不只是模型强不强,而是:
- 你怎么写入
- 你怎么召回
- 你怎么处理更新
- 你怎么评估
没有评测的 memory,大多数时候只是讲故事。
来源
- LongMemEval 官方 GitHub
- MemoryBench 官方文档
- MemoryBench 官方文档:Integrations
- Supermemory Research
- X.com:关于 ~99% 长期记忆系统的讨论