摘要 / 导语: 在具身智能与视频理解飞速发展的今天,如何让 AI 真正 “看懂” 复杂的操作步骤?北京航空航天大学陆峰教授团队联合东京大学,提出视频理解新框架。该工作引入了 “状态(State)” 作为视觉锚点,解决了抽象文本指令与具象视频之间的对齐难题,已被人工智能顶级会议 AAAI 2026 接收。
在当今的视频理解和具身智能领域,教 AI 理解 “做菜” 或 “修理电器” 等程序性活动具有重要意义。然而,当这一需求遭遇现有的图文对齐范式时,一个难以忽视的「语义鸿沟」(Semantic Gap)横亘在研究者面前。
现有的程序性视频学习方法面临数据困境:要么依赖极其昂贵的时间密集型标注,难以扩展;要么利用 WikiHow 等外部知识库进行弱监督学习,将视频帧与 “任务(Task)” 或 “步骤(Step)” 的文本描述强行对齐。
但弱监督的方式仍然存在优化空间:抽象的语言描述与具体的视觉像素之间存在断层。当文本指令是 “切橙子”(Cut oranges)时,视频中呈现的是橙子从完整状态到果肉外露的连续视觉形态变化,而非明确的动作过程。二者之间的不匹配导致模型难以准确识别和理解视频所表达的实际过程。
为了解决这一问题,北京航空航天大学陆峰教授团队,联合东京大学黄逸飞博士推出了 TSS(Task-Step-State)框架。其核心洞见在于重构了过程性知识的层级结构:引入「状态」(State)这一视觉接地层,并提出了一种渐进式 “层级展开”(Hierarchy Unfolding)的渐进式预训练策略。

- 标题:Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
- 作者:赵静晗,黄逸飞,陆峰
- 机构:北京航空航天大学,东京大学
- 论文链接:https://arxiv.org/pdf/2511.20073
- 代码仓库:https://github.com/zhao-jinghan/TSS-unfolding
在传统的弱监督训练中,模型试图直接建立视觉内容与 “任务” 或 “步骤” 描述的联系。但在视频中,“步骤” 往往是一个粗糙且抽象的动作过程,而视觉传感器捕捉到的是物体视觉状态的连续改变。这种「信息错位」导致了现有方法的局限性。
TSS 核心架构:以「状态」为锚点,层层递进
TSS 框架创新性地提出了一种三层知识结构,巧妙地利用 “状态” 填补了语义鸿沟。

传统的 “任务 – 步骤” 二元结构过于抽象。TSS 利用大语言模型(LLM)生成了第三层语义 —— 状态(State)。 TSS 将每个步骤扩展为一组状态快照(Snapshot):
- 初始状态:橙子是完整的,橙子和刀没有接触。
- 中间状态:刀切入橙皮,橙子不再完整。
- 结束状态:橙子果肉外露,变为切片。
我们可以把这理解为给 AI 配了一副 “显微镜”: 原本 AI 只能听到模糊的指令 “切它”,现在 AI 能通过 TSS 框架清晰地看到物体属性的具体变化。这些状态描述是视觉可感知的(Visually-grounded),能够直接作为锚点,将抽象的步骤锁死在具体的视频帧上。

拥有了三层结构后,如何训练模型?TSS 摒弃了粗暴的 “混合训练”,提出了一种符合认知规律的渐进式 “层级展开”(Hierarchy Unfolding)策略。
这不仅是一个训练技巧,更是一种 “分析 – 综合” 的哲学: 研究团队设计了一条 Task → Step → State → Step → Task 的 U 型学习路径。
- 向下扎根(Analysis): 从高层任务出发,一路向下学习,直到模型能精准识别最底层的 “状态”。这迫使模型将注意力集中在具体的视觉证据上。
- 向上反哺(Synthesis): 在掌握了扎实的视觉细节后,模型带着 “状态” 的知识回归高层,重新审视 “步骤” 和 “任务”。
这种双向流动良好的利用了 TSS 框架内在的逻辑联系,其中步骤是关键状态的转变,而一系列关键状态则构成了总体的任务。
工程实现:基于大模型的「智能增强」
- 自动化生成:核心的 “状态” 描述无需人工逐一标注,而是通过 GPT 等大模型基于现有 WikiHow 文本数据推理生成,极大降低了数据成本。
- 轻量化微调:训练轻量级 Adapter 模块,作为预训练阶段的高效扩展组件,提升模型表征能力。
实验验证:全面超越 SOTA
研究团队在 COIN 和 CrossTask 数据集上进行了下游任务(任务识别,步骤识别,步骤预测)的测试。
实验结果表明:
- 方法优越性: 该方法在 COIN 和 CrossTask 的三大下游任务上的性能均超越了基线模型(表 3)。
- 核心机制有效性:引入 “状态” 层作为视觉锚点,并配合渐进式的预训练策略,是提升模型程序性视频理解能力的关键驱动力(表 2)。


为了探究 TSS 层级架构中最优的知识学习顺序,并验证底层 “状态” 信息能否反向辅助高层语义的理解,作者设计了一组对比实验(表 2)。
其中,各 Path 代表了不同的训练路径:
- Path 1:Task only
- Path 2:Task→Step
- Path 3:Task→Step→State
- Path 4:Task→Step→State→Task
- Path 5:Task→Step→State→Step
- Path 6:Task→Step→State→Task→Step
Task→Step→State 是自上而下的过程,而 Path-5 和 Path-6 构建了分析 – 综合的闭环,在学习底层状态后,继续向上回溯。
如表 2 所示,对比 Path-2 (Task→Step) 和 Path-5 (Task→Step→State→Step),后者在各项指标上均有显著提升。这证明了让模型学习 “状态”(即物体在动作前后的具体变化),可以反哺模型对 “步骤” 的理解,使特征表示更具视觉落地性(Visually-grounded)。
同时,Mix-Train(联合训练)的效果介于 Path-1 和 Path-2 之间(表 2),弱于该方法提出的 Path-5。这证明了 TSS 框架中的层级结构(任务 – 步骤 – 状态)存在内在逻辑,通过渐进式引导,模型能更好地建立各层级间的关联,而不是将其视为黑盒数据。
总结
在 AI Agent 需要执行复杂操作的背景下,仅仅 “听懂指令” 是不够的,必须 “看懂后果”。TSS 证明了,通过显式地建模物体状态变化,我们可以有效地弥合自然语言与物理世界之间的鸿沟。
这种 “以状态为锚点,自底向上构建理解” 的思路,为未来构建既懂高层规划、又能精准执行细节的智能系统提供了新的探索思路。目前,该论文代码已开源,欢迎社区关注与试用。
作者介绍
- 赵静晗:北京航空航天大学硕士研究生,研究方向为视频理解等。
- 黄逸飞:东京大学博士后,研究方向为第一视角视频、眼动、具身智能等。
- 陆峰:北京航空航天大学教授,研究方向为眼动、第一视角视频、共身智能等。
文章来自于微信公众号 “机器之心”,作者 “机器之心”
