AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

“问题,是用旧思维制造的;它不可能靠同一套思维被解决。”

作为“机械式理性主义”批判者的爱因斯坦,多次强调:科学突破不是线性推理

的自然延伸。

在解释相对论为何颠覆牛顿体系时,他的逻辑就是:停止在旧体系里“修修补补”,直接换了一套理解世界的坐标系。

而在通往 AGI 的道路上,Scaling Law+ Transformer路线是不是也走到头了?是不是也得换一套方法论呢?

当地时间12月4日下午,谷歌研究员的一篇论文在现场引来了超多AI爱好者的围观。

甚至,被业界专家视为“为AGI发展提供了新框架”,一位人士评价为:这篇论文将成为逐步推动实现AGI的5~10篇论文中的一篇。

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

这位网友点评道:在今天上午NeurIPS 大会,强化学习之父 Richard Sutton 再次提醒,我们需要持续学习才能实现通用人工智能。

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

而下午谷歌的这篇论文《Nest learning》,为持续学习提供了新思路。

谷歌研究员提出优于Transformer的新架构:

大模型能学会,但忘性大

过去两年,AI 的进化速度越来越快,但一个核心问题始终没有被真正解决:模型能学会,却很难真正“记住”。你给它再多上下文,只要对话结束,这些经验就像从未发生过。

最近,来自谷歌的研究员提出了一条全新的技术路径,试图从底层打破这一限制——他们把这条路线称为 Nested Learning(嵌套学习),并基于它构建了全新的连续体记忆系统 CMS 与 HOPE 架构。

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

这中架构与此前的“训练→推理”的框架不同,而是一次试图重写模型如何获得记忆、如何积累知识的尝试。如果这条路成立,AI 将第一次具备真正意义上的“长期学习能力”。

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

深度学习本质上是上下文压缩:现有方法(如Transformer)通过注意力机制压缩上下文流,导致信息丢失。

而 NL 则显式建模多级压缩,实现“联想记忆”。

LLM 的“顺行性遗忘症”

谷歌研究员 Ali Behrouz(论文一作)上来抛出了自己的问题发现:

今天的大模型有两种知识来源。

一类来自预训练,知识被固化在参数里,像是长期记忆;另一类来自推理时的上下文,是临时可用的信息。但问题恰恰出在这里——上下文一旦消失,模型对这些新知识的记忆也随之消失。

研究团队用一个非常形象的医学类比来描述这种状态:顺行性遗忘症(anterograde amnesia)。这种病人可以记住过去,也能短暂记住现在,但无法把短期记忆转化为长期记忆。也就是:人会不断地“重新体验当下”,却无法真正记住新东西

而对当前主流大模型来说,病状就是:它们“看得见”,却“存不住”。这带来的直接后果是:

  • 模型几乎无法进行真正的连续学习

  • 只能在“上下文窗口”内短暂聪明

  • 无法形成跨任务、跨时间的知识积累

研究员的问题很直接:能不能让模型在推理阶段学到的东西,被真正“写进”模型本身?

核心贡献:把一切重新理解为“记忆系统”

这项研究最重要的突破,不是提出某个新模块,而是重新定义了架构、注意力和优化器的本质

他们提出一个核心抽象:

几乎所有深度学习结构,都可以被看作是一种“关联记忆系统”。

所谓关联记忆,本质就是在学习 Key → Value 的映射关系。

  • 你看到一张脸,想到一个名字

  • 你看到一个问题,找到一个答案

这些都属于“关联”。他们进一步发现:

  • 线性注意力,本质是用梯度下降在优化一个关联映射

  • 不同损失函数,会导出完全不同的网络结构

  • 架构不再是工程拼装,而是“你选择了哪种记忆优化目标”

进一步往下推,他们得出了一个更激进的结论:

梯度下降本身,也是一种关联记忆。

模型用当前参数状态作为“输入”,生成梯度作为“输出”,再用这个输出更新自己。这是一种高度自指的学习系统。模型在用自己,训练自己。

当他们把“动量”(Momentum term)也纳入这个体系时,发现动量其实就是一种对历史梯度的压缩记忆。这让架构、优化器、注意力、内外记忆第一次被统一到同一个理论框架下。

谷歌Trick:引入“多时间尺度记忆”

当前 Transformer 只有两种极端记忆方式:

  • 注意力层:每个 token 都在更新,变化极快

  • 参数层:只在预训练时更新,几乎永不改变

中间地带是空的。这意味着模型要么“极短记忆”,要么“永久固化”,完全缺少类似人类那样的中期记忆结构

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

为了解决这个问题,他们提出了一个关键设计:

不再只有一个固定的 MLP,而是引入多个、不同更新频率的 MLP 模块

例如:

  • 有的模块每 10 个 token 更新一次

  • 有的每 1000 个 token 更新一次

  • 有的几百万 token 才更新一次

  • 还有的完全冻结,充当长期记忆

这样一来,模型内部就形成了一个真正意义上的:

  • 工作记忆

  • 中期记忆

  • 长期记忆

并存的连续记忆系统。这正是他们后来称为 Continuum Memory (连续记忆) 的核心思想。

总结一下,CMS 把传统“长期/短期记忆”观点泛化为连续体记忆:记忆不是二元分离,而是连续谱,从瞬时(高频)到永久(低频)。形式公示如下:

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

其中,α 是保留权重,Retain是衰减函数。CMS 使用多级嵌套优化维护这个积分,支持无限历史追踪而无爆炸性增长。

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

谷歌研究团队怎么做到的?

论文通过NL 范式提出三个互补的技术创新,每个都直接应用于持续学习和长上下文任务。深度优化器、自修改模型Titans、连续记忆系统CMS+Hope架构。

首先,是深度优化器。

传统优化器(如Adam、SGD with Momentum)可视为联想记忆模块,通过梯度下降压缩梯度上下文流。具体地,Adam 的更新规则类似于Hebbian学习(“同时激活的神经元加强连接”),但仅用点积相似度(dot-product similarity)计算,导致记忆效率低(忽略样本间关系)。

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

技术细节:Deep Memory Optimizers 内层使用RNN或Transformer压缩长梯度序列,支持“深度记忆”(deep memory),如多层嵌套以捕捉梯度依赖。

比如用高级学习规则,将点积替换为非线性相似度,提升了优化在噪声数据下的鲁棒性。再比如将优化器重构为嵌套优化,还提出了更experssive的优化器变体等,更多细节,大家可以自行翻阅论文。

在实验的基准优化任务中,Deep Optimizers 收敛更快 15-20%,并减少 30% 的遗忘率(通过模拟持续优化)。

其次,基于上述理论,谷歌团队提出了一个Self-Modifying Titans:自修改序列模型Titans。

NL 允许模型“学习如何学习”,即内层优化直接修改外层参数,实现自改进(self-improvement)。

技术细节方面,架构上

外层是标准RNN/Transformer,外层参数 θ

 通过内层“元优化器”(meta-optimizer)更新。

自修改机制

:使用NL 的上下文流追踪历史更新,允许模型动态调整架构(比如:添加/删除层)。这类似于“Titans”——可进化的大型模型。

实验发现,在少样本泛化(few-shot learning)中,自修改模型适应新任务时,性能提升 10-25%,无需重训整个模型。

第三项,则是HOPE架构。

第二和第三项,我们放到下一部分单独聊。

自修改序列模型Titans

Titans 作为一个基础序列模型,本质是:

  • 关联记忆目标

  • L2 损失

  • 带动量与权重衰减的梯度下降

这不是谷歌团队拍脑袋拼出来的模块,而是从“记忆优化”这个数学目标自然推导出的结构。

接着,他们又做了一次更激进的升级,构建了:自反省 Titan(Self-referential Titan)

在这个版本中:

  • Key 与 Value 不再是外部固定输入

  • 模型自己生成学习信号

  • 学习率、权重衰减等超参数,也由模型自动学习

再加上前面的多频率 MLP 连续记忆系统,最终形成了完整的:

HOPE 架构

这是一个第一次真正具备“跨时间持续学习结构”的大模型框架。

Hope:新的模型架构

Hope 架构则是集大成的一个架构,它是一个

结合了自修改序列模型 和 CMS 的一个 POC。

  • 多频率更新:CMS 内层高频更新上下文,外层低频固化知识。

  • 自修改模块:Hope 学习修改自己的CMS权重,实现“希望”(Hope)——对未来任务的乐观适应。

  • 实现:基于PyTorch,参数规模与小型Transformer相当(~100M),但支持无限上下文(通过压缩)。

def hope_update(x, theta, phi):  # theta: 外层参数, phi: 内层CMS    context_flow = compress_context(x, phi)  # 内层: 高频压缩    grad = compute_grad(context_flow, theta)    phi_new = inner_opt(phi, grad)  # CMS 更新    theta_new = outer_opt(theta, phi_new)  # 低频自修改    return theta_new, phi_new

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

结果:从超长上下文到连续学习,全面优于Transformer

在多组关键实验中,HOPE 展现出了与传统 Transformer 本质不同的能力曲线。

第一,语言建模与推理能力上,在 10 亿参数级别超过 Transformer 与原始 Titan。这说明引入连续记忆并没有牺牲基础建模能力。

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

第二,在超长上下文任务中,HOPE 在千万级 Token 上仍能稳定工作,而 Titan 在 200 万 Token 左右就出现明显性能崩溃。这意味着记忆不再依赖注意力,而是真正写入模型。

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

第三,在连续学习任务中,模型被要求不断学习新语言、新分类规则。传统 In-context Learning 很快失效,而 HOPE 能持续稳定提升。

AGI新路径!谷歌神作!NIPS大会现场谷歌新模型架构被疯狂围观:模型本身就是记忆系统!网友:Transformer到头了

这组结果释放了一个极其重要的信号:

大模型第一次在结构层面具备了“越用越聪明”的潜质。

ps:如果大家对于具体的数字感兴趣,小编也整理下来了。

  • 语言建模:在WikiText-103上,Hope 困惑度(perplexity)降低 12%(vs. GPT-2 baseline),尤其在长序列 (>4k tokens) 上。
  • 持续学习:在Split-CIFAR和Continual GLUE基准中,遗忘率降至 <5%(传统Transformer ~20%),通过多频率更新实现“终身学习”。
  • 少样本泛化:在Meta-Dataset上,准确率提升 18%,自修改机制快速适应新域。
  • 长上下文推理:在RULER任务中,Hope 处理 128k tokens 时准确率达 85%(vs. Transformer 62%)。

实验整体给出的结论是:Hope 在参数效率上优于Transformer(相同规模下性能 +15%),并在计算成本上更低(O(n log n) vs. O(n²))。

当然,Hope目前还有局限性

:内层优化计算开销高(需并行化);在极大规模 (>1B 参数) 上需进一步缩放测试。

下一步:可叠加到任何现有架构之上

研究团队也非常克制地承认:

  • 当前的连续学习能力仍然是初级阶段

  • 稀疏记忆、分层路由、跨模态连续记忆仍待探索

  • 计算效率、稳定性、灾难性遗忘仍是工程挑战

但他们同时给出了极其明确的判断:

这条路径是正交于当前主流大模型路线的“第二增长曲线”。

只要连续记忆成立,它可以被叠加到任何现有架构之上,而不是替代。

写在最后:AI终于可以随“时间”自我变强

谷歌这项工作的价值量相当高,可以说是第一次系统性地回答了一个被长期回避的问题:

AI 的“记忆”究竟应该写在哪里?

不是只写在注意力里,也不只写在参数里,而是应该分布在不同时间尺度上,形成一个真正可进化的学习系统。

如果这条路线继续推进,未来的 AI 将不再只是:不停靠一次性训练来的得到新模型,不停靠上下文临时装聪明。

而是会逐渐走向:

  • 用得越久,结构越成熟

  • 学得越多,能力越稳定

  • 类似人类的“长期经验积累型智能”

从这个意义上说,自指 Titan、CMS 与 HOPE 早已不仅仅是一次模型结构创新,更是一次对“智能如何随时间自我进化”的正面回答

如此,业界似乎大可不必每天为“参数规模”和“算力数量”焦虑了,一个好的模型架构真的可以改变AGI发展的走向。

不得不感叹,实力可怕的谷歌!

论文地址:

https://abehrouz.github.io/files/NL.pdf

参考链接:

https://x.com/PTrubey/status/1996442036925239510

https://www.youtube.com/watch?v=uX12aCdni9Q&t=1194s

文章来自于微信公众号 “51CTO技术栈”,作者 “51CTO技术栈”

搜索