BotOf Tech — 个人技术博客

最近三个月，Agent Memory 这条线最健康的变化之一，是它开始真正重视评测。

过去很多 memory 产品喜欢讲：

“再也不会忘”
“无限上下文”
“像人一样长期记忆”

但真正做工程的人都知道，没有 benchmark，这些话没有多少比较价值。

LongMemEval 为什么重要

LongMemEval 的官方 GitHub 把它定义成一个测试 chat assistant 长期交互记忆能力的 benchmark，核心能力包括：

information extraction
multi-session reasoning
knowledge updates
temporal reasoning
abstention

我认为这里最关键的是后面三个：

knowledge updates
temporal reasoning
abstention

因为真实用户记忆最难的从来不是“记住一个事实”，而是：

旧事实后来变了
时间顺序会影响答案
根本不知道时要敢于说不知道

最近三个月 Memory 工程为什么突然更像一门学问

因为大家开始发现，memory 不是一个简单 feature，而是一整条 pipeline。

Supermemory 的 MemoryBench 框架把这件事拆得很清楚。官方文档里，它支持：

多 provider
多 benchmark
多 judge model
可 checkpoint 的完整评测流水线

而且 Benchmark 不是只有一个。MemoryBench 目前至少支持：

LongMemEval
LoCoMo
ConvoMem

这很重要，因为不同 benchmark 测的东西不一样。

Benchmark	更偏什么
LongMemEval	长期会话、知识更新、时间推理
LoCoMo	长上下文记忆和复杂事实召回
ConvoMem	个性化、偏好和证据学习

也就是说，单一分数已经越来越不够看。

为什么最近几个月大家开始疯狂比 LongMemEval

因为它非常接近真实产品痛点。

相比“给你一大段文档然后回答”，LongMemEval 更像真实助手会遇到的场景：

多次会话
时间戳存在
同一件事会更新
并不是每个问题都该答得出来

这使得很多“只会 semantic search”的方案开始暴露短板。

三种典型路线在 benchmark 上各暴露什么问题

1. 纯向量检索

长处是简单、快、好接。

短处是：

时间变化处理弱
冲突知识容易混
多实体关系容易糊

2. 图谱 / 关系增强

长处是更擅长：

实体关系
时间关系
多跳推理

短处是：

抽取质量决定上限
图谱构建和维护成本更高

3. 观察式 / 压缩式记忆

比如 Mastra 的 Observational Memory 这种路线，长处是：

context 更稳定
prompt cache 更友好
coding agent 场景更顺

但它也依赖高质量的 observation / reflection 机制，不是“压缩一下”就能自动变强。

我最在意的不是分数，而是可复现

MemoryBench 这类工具最有价值的地方，不只是给出一张排行榜，而是让团队能更系统地问这些问题：

provider 换了会怎样
judge model 换了会怎样
benchmark 换了会怎样
某个 memory 方案在哪种问题类型上崩

这比社交媒体上的“我们 95% 了”有意义得多。

最近几个月 Memory 评测的一条共识

从 Supermemory、Mastra、Mem0、社区长线程这些讨论放在一起看，我觉得一个共识已经很清楚了：

memory 不是看你存了多少，而是看你在知识更新、时间推理和多会话里还能不能稳定答对。

这也是为什么 LongMemEval 这类 benchmark 变成高频被引用对象。

我的判断

Agent Memory 现在已经进入一个更像数据库和检索工程的阶段。接下来真正会拉开差距的，不只是模型强不强，而是：

你怎么写入
你怎么召回
你怎么处理更新
你怎么评估

没有评测的 memory，大多数时候只是讲故事。

来源

LongMemEval 官方 GitHub
- https://github.com/xiaowu0162/longmemeval
MemoryBench 官方文档
- https://supermemory.ai/docs/memorybench/overview
MemoryBench 官方文档：Integrations
- https://supermemory.ai/docs/memorybench/integrations
Supermemory Research
- https://supermemory.ai/research/
X.com：关于 ~99% 长期记忆系统的讨论
- https://x.com/witcheer/status/2035622300347723840