“问题,是用旧思维制造的;它不可能靠同一套思维被解决。”
作为“机械式理性主义”批判者的爱因斯坦,多次强调:科学突破不是线性推理
的自然延伸。
在解释相对论为何颠覆牛顿体系时,他的逻辑就是:停止在旧体系里“修修补补”,直接换了一套理解世界的坐标系。
而在通往 AGI 的道路上,Scaling Law+ Transformer路线是不是也走到头了?是不是也得换一套方法论呢?
当地时间12月4日下午,谷歌研究员的一篇论文在现场引来了超多AI爱好者的围观。
甚至,被业界专家视为“为AGI发展提供了新框架”,一位人士评价为:这篇论文将成为逐步推动实现AGI的5~10篇论文中的一篇。

这位网友点评道:在今天上午NeurIPS 大会,强化学习之父 Richard Sutton 再次提醒,我们需要持续学习才能实现通用人工智能。

而下午谷歌的这篇论文《Nest learning》,为持续学习提供了新思路。
谷歌研究员提出优于Transformer的新架构:
大模型能学会,但忘性大
过去两年,AI 的进化速度越来越快,但一个核心问题始终没有被真正解决:模型能学会,却很难真正“记住”。你给它再多上下文,只要对话结束,这些经验就像从未发生过。
最近,来自谷歌的研究员提出了一条全新的技术路径,试图从底层打破这一限制——他们把这条路线称为 Nested Learning(嵌套学习),并基于它构建了全新的连续体记忆系统 CMS 与 HOPE 架构。

这中架构与此前的“训练→推理”的框架不同,而是一次试图重写模型如何获得记忆、如何积累知识的尝试。如果这条路成立,AI 将第一次具备真正意义上的“长期学习能力”。

深度学习本质上是上下文压缩:现有方法(如Transformer)通过注意力机制压缩上下文流,导致信息丢失。
而 NL 则显式建模多级压缩,实现“联想记忆”。
LLM 的“顺行性遗忘症”
谷歌研究员 Ali Behrouz(论文一作)上来抛出了自己的问题发现:
今天的大模型有两种知识来源。
一类来自预训练,知识被固化在参数里,像是长期记忆;另一类来自推理时的上下文,是临时可用的信息。但问题恰恰出在这里——上下文一旦消失,模型对这些新知识的记忆也随之消失。
研究团队用一个非常形象的医学类比来描述这种状态:顺行性遗忘症(anterograde amnesia)。这种病人可以记住过去,也能短暂记住现在,但无法把短期记忆转化为长期记忆。也就是:人会不断地“重新体验当下”,却无法真正记住新东西
而对当前主流大模型来说,病状就是:它们“看得见”,却“存不住”。这带来的直接后果是:
- 模型几乎无法进行真正的连续学习
- 只能在“上下文窗口”内短暂聪明
- 无法形成跨任务、跨时间的知识积累
研究员的问题很直接:能不能让模型在推理阶段学到的东西,被真正“写进”模型本身?
核心贡献:把一切重新理解为“记忆系统”
这项研究最重要的突破,不是提出某个新模块,而是重新定义了架构、注意力和优化器的本质。
他们提出一个核心抽象:
几乎所有深度学习结构,都可以被看作是一种“关联记忆系统”。
所谓关联记忆,本质就是在学习 Key → Value 的映射关系。
- 你看到一张脸,想到一个名字
- 你看到一个问题,找到一个答案
这些都属于“关联”。他们进一步发现:
- 线性注意力,本质是用梯度下降在优化一个关联映射
- 不同损失函数,会导出完全不同的网络结构
- 架构不再是工程拼装,而是“你选择了哪种记忆优化目标”
进一步往下推,他们得出了一个更激进的结论:
梯度下降本身,也是一种关联记忆。
模型用当前参数状态作为“输入”,生成梯度作为“输出”,再用这个输出更新自己。这是一种高度自指的学习系统。模型在用自己,训练自己。
当他们把“动量”(Momentum term)也纳入这个体系时,发现动量其实就是一种对历史梯度的压缩记忆。这让架构、优化器、注意力、内外记忆第一次被统一到同一个理论框架下。
谷歌Trick:引入“多时间尺度记忆”
当前 Transformer 只有两种极端记忆方式:
- 注意力层:每个 token 都在更新,变化极快
- 参数层:只在预训练时更新,几乎永不改变
中间地带是空的。这意味着模型要么“极短记忆”,要么“永久固化”,完全缺少类似人类那样的中期记忆结构。

为了解决这个问题,他们提出了一个关键设计:
不再只有一个固定的 MLP,而是引入多个、不同更新频率的 MLP 模块。
例如:
- 有的模块每 10 个 token 更新一次
- 有的每 1000 个 token 更新一次
- 有的几百万 token 才更新一次
- 还有的完全冻结,充当长期记忆
这样一来,模型内部就形成了一个真正意义上的:
- 工作记忆
- 中期记忆
- 长期记忆
并存的连续记忆系统。这正是他们后来称为 Continuum Memory (连续记忆) 的核心思想。
总结一下,CMS 把传统“长期/短期记忆”观点泛化为连续体记忆:记忆不是二元分离,而是连续谱,从瞬时(高频)到永久(低频)。形式公示如下:

其中,α 是保留权重,Retain是衰减函数。CMS 使用多级嵌套优化维护这个积分,支持无限历史追踪而无爆炸性增长。

谷歌研究团队怎么做到的?
论文通过NL 范式提出三个互补的技术创新,每个都直接应用于持续学习和长上下文任务。深度优化器、自修改模型Titans、连续记忆系统CMS+Hope架构。
首先,是深度优化器。
传统优化器(如Adam、SGD with Momentum)可视为联想记忆模块,通过梯度下降压缩梯度上下文流。具体地,Adam 的更新规则类似于Hebbian学习(“同时激活的神经元加强连接”),但仅用点积相似度(dot-product similarity)计算,导致记忆效率低(忽略样本间关系)。


技术细节:Deep Memory Optimizers 内层使用RNN或Transformer压缩长梯度序列,支持“深度记忆”(deep memory),如多层嵌套以捕捉梯度依赖。
比如用高级学习规则,将点积替换为非线性相似度,提升了优化在噪声数据下的鲁棒性。再比如将优化器重构为嵌套优化,还提出了更experssive的优化器变体等,更多细节,大家可以自行翻阅论文。
在实验的基准优化任务中,Deep Optimizers 收敛更快 15-20%,并减少 30% 的遗忘率(通过模拟持续优化)。
其次,基于上述理论,谷歌团队提出了一个Self-Modifying Titans:自修改序列模型Titans。
NL 允许模型“学习如何学习”,即内层优化直接修改外层参数,实现自改进(self-improvement)。
技术细节方面,架构上
外层是标准RNN/Transformer,外层参数 θ
通过内层“元优化器”(meta-optimizer)更新。
自修改机制
:使用NL 的上下文流追踪历史更新,允许模型动态调整架构(比如:添加/删除层)。这类似于“Titans”——可进化的大型模型。
实验发现,在少样本泛化(few-shot learning)中,自修改模型适应新任务时,性能提升 10-25%,无需重训整个模型。
第三项,则是HOPE架构。
第二和第三项,我们放到下一部分单独聊。
自修改序列模型Titans
Titans 作为一个基础序列模型,本质是:
- 关联记忆目标
- L2 损失
- 带动量与权重衰减的梯度下降
这不是谷歌团队拍脑袋拼出来的模块,而是从“记忆优化”这个数学目标自然推导出的结构。
接着,他们又做了一次更激进的升级,构建了:自反省 Titan(Self-referential Titan)
在这个版本中:
- Key 与 Value 不再是外部固定输入
- 模型自己生成学习信号
- 学习率、权重衰减等超参数,也由模型自动学习
再加上前面的多频率 MLP 连续记忆系统,最终形成了完整的:
HOPE 架构
这是一个第一次真正具备“跨时间持续学习结构”的大模型框架。
Hope:新的模型架构
Hope 架构则是集大成的一个架构,它是一个
结合了自修改序列模型 和 CMS 的一个 POC。
- 多频率更新:CMS 内层高频更新上下文,外层低频固化知识。
- 自修改模块:Hope 学习修改自己的CMS权重,实现“希望”(Hope)——对未来任务的乐观适应。
- 实现:基于PyTorch,参数规模与小型Transformer相当(~100M),但支持无限上下文(通过压缩)。
def hope_update(x, theta, phi): # theta: 外层参数, phi: 内层CMS context_flow = compress_context(x, phi) # 内层: 高频压缩 grad = compute_grad(context_flow, theta) phi_new = inner_opt(phi, grad) # CMS 更新 theta_new = outer_opt(theta, phi_new) # 低频自修改 return theta_new, phi_new

结果:从超长上下文到连续学习,全面优于Transformer
在多组关键实验中,HOPE 展现出了与传统 Transformer 本质不同的能力曲线。
第一,语言建模与推理能力上,在 10 亿参数级别超过 Transformer 与原始 Titan。这说明引入连续记忆并没有牺牲基础建模能力。


第二,在超长上下文任务中,HOPE 在千万级 Token 上仍能稳定工作,而 Titan 在 200 万 Token 左右就出现明显性能崩溃。这意味着记忆不再依赖注意力,而是真正写入模型。

第三,在连续学习任务中,模型被要求不断学习新语言、新分类规则。传统 In-context Learning 很快失效,而 HOPE 能持续稳定提升。

这组结果释放了一个极其重要的信号:
大模型第一次在结构层面具备了“越用越聪明”的潜质。
ps:如果大家对于具体的数字感兴趣,小编也整理下来了。
- 语言建模:在WikiText-103上,Hope 困惑度(perplexity)降低 12%(vs. GPT-2 baseline),尤其在长序列 (>4k tokens) 上。
- 持续学习:在Split-CIFAR和Continual GLUE基准中,遗忘率降至 <5%(传统Transformer ~20%),通过多频率更新实现“终身学习”。
- 少样本泛化:在Meta-Dataset上,准确率提升 18%,自修改机制快速适应新域。
- 长上下文推理:在RULER任务中,Hope 处理 128k tokens 时准确率达 85%(vs. Transformer 62%)。
实验整体给出的结论是:Hope 在参数效率上优于Transformer(相同规模下性能 +15%),并在计算成本上更低(O(n log n) vs. O(n²))。
当然,Hope目前还有局限性
:内层优化计算开销高(需并行化);在极大规模 (>1B 参数) 上需进一步缩放测试。
下一步:可叠加到任何现有架构之上
研究团队也非常克制地承认:
- 当前的连续学习能力仍然是初级阶段
- 稀疏记忆、分层路由、跨模态连续记忆仍待探索
- 计算效率、稳定性、灾难性遗忘仍是工程挑战
但他们同时给出了极其明确的判断:
这条路径是正交于当前主流大模型路线的“第二增长曲线”。
只要连续记忆成立,它可以被叠加到任何现有架构之上,而不是替代。
写在最后:AI终于可以随“时间”自我变强
谷歌这项工作的价值量相当高,可以说是第一次系统性地回答了一个被长期回避的问题:
AI 的“记忆”究竟应该写在哪里?
不是只写在注意力里,也不只写在参数里,而是应该分布在不同时间尺度上,形成一个真正可进化的学习系统。
如果这条路线继续推进,未来的 AI 将不再只是:不停靠一次性训练来的得到新模型,不停靠上下文临时装聪明。
而是会逐渐走向:
- 用得越久,结构越成熟
- 学得越多,能力越稳定
- 类似人类的“长期经验积累型智能”
从这个意义上说,自指 Titan、CMS 与 HOPE 早已不仅仅是一次模型结构创新,更是一次对“智能如何随时间自我进化”的正面回答。
如此,业界似乎大可不必每天为“参数规模”和“算力数量”焦虑了,一个好的模型架构真的可以改变AGI发展的走向。
不得不感叹,实力可怕的谷歌!
论文地址:
https://abehrouz.github.io/files/NL.pdf
参考链接:
https://x.com/PTrubey/status/1996442036925239510
https://www.youtube.com/watch?v=uX12aCdni9Q&t=1194s
文章来自于微信公众号 “51CTO技术栈”,作者 “51CTO技术栈”
