BotOf Tech
返回首页LongMemEval 之后,Agent Memory 为什么开始像一门独立工程学

LongMemEval 之后,Agent Memory 为什么开始像一门独立工程学

·2 分钟阅读·

最近三个月,Agent Memory 这条线最健康的变化之一,是它开始真正重视评测。

过去很多 memory 产品喜欢讲:

  • “再也不会忘”
  • “无限上下文”
  • “像人一样长期记忆”

但真正做工程的人都知道,没有 benchmark,这些话没有多少比较价值。

LongMemEval 为什么重要

LongMemEval 的官方 GitHub 把它定义成一个测试 chat assistant 长期交互记忆能力的 benchmark,核心能力包括:

  • information extraction
  • multi-session reasoning
  • knowledge updates
  • temporal reasoning
  • abstention

我认为这里最关键的是后面三个:

  • knowledge updates
  • temporal reasoning
  • abstention

因为真实用户记忆最难的从来不是“记住一个事实”,而是:

  • 旧事实后来变了
  • 时间顺序会影响答案
  • 根本不知道时要敢于说不知道

最近三个月 Memory 工程为什么突然更像一门学问

因为大家开始发现,memory 不是一个简单 feature,而是一整条 pipeline。

Supermemory 的 MemoryBench 框架把这件事拆得很清楚。官方文档里,它支持:

  • 多 provider
  • 多 benchmark
  • 多 judge model
  • 可 checkpoint 的完整评测流水线

而且 Benchmark 不是只有一个。MemoryBench 目前至少支持:

  • LongMemEval
  • LoCoMo
  • ConvoMem

这很重要,因为不同 benchmark 测的东西不一样。

Benchmark更偏什么
LongMemEval长期会话、知识更新、时间推理
LoCoMo长上下文记忆和复杂事实召回
ConvoMem个性化、偏好和证据学习

也就是说,单一分数已经越来越不够看。

为什么最近几个月大家开始疯狂比 LongMemEval

因为它非常接近真实产品痛点。

相比“给你一大段文档然后回答”,LongMemEval 更像真实助手会遇到的场景:

  • 多次会话
  • 时间戳存在
  • 同一件事会更新
  • 并不是每个问题都该答得出来

这使得很多“只会 semantic search”的方案开始暴露短板。

三种典型路线在 benchmark 上各暴露什么问题

1. 纯向量检索

长处是简单、快、好接。

短处是:

  • 时间变化处理弱
  • 冲突知识容易混
  • 多实体关系容易糊

2. 图谱 / 关系增强

长处是更擅长:

  • 实体关系
  • 时间关系
  • 多跳推理

短处是:

  • 抽取质量决定上限
  • 图谱构建和维护成本更高

3. 观察式 / 压缩式记忆

比如 Mastra 的 Observational Memory 这种路线,长处是:

  • context 更稳定
  • prompt cache 更友好
  • coding agent 场景更顺

但它也依赖高质量的 observation / reflection 机制,不是“压缩一下”就能自动变强。

我最在意的不是分数,而是可复现

MemoryBench 这类工具最有价值的地方,不只是给出一张排行榜,而是让团队能更系统地问这些问题:

  • provider 换了会怎样
  • judge model 换了会怎样
  • benchmark 换了会怎样
  • 某个 memory 方案在哪种问题类型上崩

这比社交媒体上的“我们 95% 了”有意义得多。

最近几个月 Memory 评测的一条共识

从 Supermemory、Mastra、Mem0、社区长线程这些讨论放在一起看,我觉得一个共识已经很清楚了:

memory 不是看你存了多少,而是看你在知识更新、时间推理和多会话里还能不能稳定答对。

这也是为什么 LongMemEval 这类 benchmark 变成高频被引用对象。

我的判断

Agent Memory 现在已经进入一个更像数据库和检索工程的阶段。接下来真正会拉开差距的,不只是模型强不强,而是:

  • 你怎么写入
  • 你怎么召回
  • 你怎么处理更新
  • 你怎么评估

没有评测的 memory,大多数时候只是讲故事。

来源