Fast-WAM - 世界动作模型在推理时真的需要"脑补"未来吗？

一、研究背景：具身智能的"两难困境"

在机器人领域，一直存在着两派势力的较量：

VLA 派（视觉-语言-动作模型）

代表：OpenVLA

特点：

反应极快，看到图像就直接输出动作
像"直觉派"选手，出手如电

缺点：

不懂物理规律，不知道物体被碰后会怎样
容易"手残"，在精细操作上容易出错

WAM 派（世界动作模型）

特点：

不仅预测动作，还要预测未来的视频画面
像"思辨派"选手，深思熟虑

缺点：

太慢了！ 执行前要进行几十次 Diffusion 去噪步骤
机器人动一下可能要等几秒钟，简直是"慢动作重播"

核心问题

灵魂拷问

世界模型之所以强，是因为推理时需要"脑补"未来视频？还是因为训练时学过如何生成视频？

作者大胆假设：视频生成的价值在于训练，而非推理。 能不能既要 WAM 的"脑子"（物理常识），又要 VLA 的"手速"？

二、Fast-WAM 的核心思想

核心理念

训练时拼命"画画"，推理时只管"出招"。

想象一下，你让一个机器人折毛巾：

传统 WAM 是个"慢性子"：每动一下，都要先在脑子里花几秒钟"脑补"出接下来的动作会产生什么样的视频画面，然后再根据画面去出招
Fast-WAM 的做法：在训练场让你画画是为了让你理解肌肉发力的逻辑，等上了战场，直接出拳就行，别在那儿画画了！

核心结论

💡 核心发现

世界模型的力量源泉在于联合训练带来的表征提升，而不是推理时那花里胡哨的视频生成。

视频训练就像是给机器人读了《物理百科全书》，不读这套书，机器人就是个瞎子；但读过之后，干活时并不需要一边干一边复述书里的内容。

三、方法论详解

3.1 底层基座：Wan2.2-5B 视频 Transformer

Fast-WAM 不是从零开始的，它寄生在一个巨大的"智慧大脑"上——Wan2.2-5B，这是一个拥有 50亿参数 的视频生成大模型。

它的角色：提供"常识"——它知道如果手往左拨，杯子就会向左倒。

3.2 MoT（Mixture-of-Transformer）架构

这是 Fast-WAM 最核心的"手术刀"，精准解决了"大模型太笨重"和"机器人要灵敏"之间的矛盾。

形象比喻

如果把普通的 Transformer 比作一个**“全科医生”（什么都干，但由于太胖，反应慢），那么 MoT 就像是一个“专家门诊部”**。

MoT 在 Fast-WAM 中扮演了三个关键角色：

1. 知识的"寄生与借力"（Knowledge Injection）

做法：在大模型内部"插入"了一个专门处理动作的 Action Expert（动作专家），约 10 亿参数
比喻：就像在一个精通物理规律的"老教授"（视频底座）大脑里，植入了一个"专业运动员"（动作专家）的运动神经
运动员在做动作时，能实时调用老教授脑子里的物理常识，但他不需要老教授亲自下场画图

2. 任务的"结构化解耦"（Task Decoupling）

视频预测和动作预测虽然有联系，但它们的"脑回路"是不一样的：

视频预测：关注全局，比如背景变没变，光影漂不漂亮
动作预测：关注细节，比如夹爪现在离桌子几厘米，力道够不够

MoT 通过不同的 Router（路由） 或特殊的注意力掩码，让模型在处理数据时，一部分参数专门盯着"画面怎么变"，另一部分参数专门盯着"手该怎么动"。

3. 实现"推理大瘦身"的开关（The Efficiency Switch）

这是 Fast-WAM 能跑得快的终极秘密：

阶段	MoT 的工作状态
训练时	所有专家都上班。一边生成视频，一边预测动作。动作专家能学到：“当老教授预测毛巾会动时，我这一步的动作指令是正确的。”
推理时	只让动作专家上班。动作专家已经通过训练掌握了老教授的物理神髓，直接关掉负责"画图/渲染视频"的那些耗电、耗时的分支。

3.3 Token 的三分法

论文将输入 Token 明确划分为三大类，配合结构化掩码实现了精妙的信息流控制：

🟦 第一帧干净隐变量 Token（共享视觉锚点）

角色：现实世界的"起点"
特点：干净的、不加噪声的。训练和推理都有
逻辑：模型唯一的真实参考，所有"脑补"都必须基于这个起点
注意力规则：孤芳自赏，谁也不看

🟨 未来帧噪声 Token（模拟实验室素材）

角色：供视频建模用
特点：只有训练时才塞进序列，被加了不同程度的噪声
命运：推理时彻底踢掉
注意力规则：可以相互双向注意，也可以看到第一帧；可以看到动作 Token

🟥 动作 Token（最终指令输出）

角色：由动作专家负责去噪生成动作序列
特点：采用动作离散化，变成类似"单词"的形式
注意力规则：只能看到第一帧，绝对不能看未来帧——防止信息泄露！

⚠️ 关键设计

动作 Token 绝对不能看未来帧！

原因：如果训练时动作 Token 看到了未来帧，它就会发现：“哦，未来毛巾已经折好了，那我反推一下现在的动作就行。“这叫信息泄露。这样学出来的机器人，一旦到了推理阶段（没有未来帧可以看），它就直接瘫痪了。

3.4 精妙的"防作弊"注意力掩码

┌─────────────────────────────────────────────────────┐
│                    注意力规则表                        │
├─────────────────────────────────────────────────────┤
│ 规则 A：动作 Token (🟥) 绝对不能看未来帧 (🟨)          │
│         → 防止"偷看答案"，强迫学习物理直觉             │
│                                                     │
│ 规则 B：未来帧 (🟨) 可以看动作 Token (🟥) 和起点 (🟦)   │
│         → 保证视频生成分支学习因果关系                  │
│                                                     │
│ 规则 C：第一帧 (🟦) 谁也不看                          │
│         → 它是给定的事实，不需要被任何预测信息干扰      │
└─────────────────────────────────────────────────────┘

3.5 训练 Loss 设计

Fast-WAM 的 Loss 设计是一个**“双头并进、联合练兵”**的策略：

$$L_{total} = L_{video} + \lambda L_{action}$$

$L_{video}$：物理规律的"强制灌输”

技术细节：基于 Flow Matching（流匹配） 或标准的 Diffusion Loss
通俗解释：给模型一张模糊的、加了噪声的未来画面，它必须想办法还原出清晰的画面
作用：让模型的大脑对物理世界保持敏感，练就"火眼金睛”

$L_{action}$：肌肉记忆的"精准打磨"

技术细节：采用 Diffusion-based Loss
通俗解释：教练在旁边看着机器人折毛巾，每动一下就对比专业动作给出差评
精妙之处：这个损失作用在 Action Expert 那个 1B 大小的"专家插件"上，同时也会通过反向传播微调底座

$\lambda$ 系数：动态平衡的"调音师"

决定模型是更想当一个"画家"（视频生成）还是"工人"（动作执行）。

为什么这样设计能"借力打力"？

在训练时，由于 $L_{video}$ 和 $L_{action}$ 在同一个 Transformer 结构中同时优化，它们会共享中间的 Hidden States：

当 $L_{video}$ 强迫模型去理解"玻璃杯碎了"的物理过程时，Transformer 的中间层会产生**“具有物理感知力"的特征信号**
负责动作预测的支路会立刻"偷听到"这个信号
$L_{action}$ 的优化过程发现：如果借用视频分支分析出的物理特征，预测动作的准确率会大大提升！

结果：训练结束后，动作分支已经彻底吸收了视频分支的"内功”。即便推理时砍掉未来帧 Token，动作分支依然能凭借已经练就的"肌肉记忆"做出符合物理规律的反应。

形象比喻

Fast-WAM 的 Loss 设计就像是一个双人舞训练。视频 Loss 负责教舞步的逻辑和平衡感，动作 Loss 负责教力量和落点。虽然演出时只有动作分支上台，但他脑子里记着的，全都是排练时视频分支带给他的节奏感。

3.6 推理逻辑：想象力"截断"

特性	传统视频动作模型 (WAM)	Fast-WAM
推理步骤	去噪采样	单次前向传播
性能瓶颈	必须生成高清视频像素	只计算潜在特征
物理理解	靠"看图"来确认	靠"联合训练"内化到权重中
延迟	很高 (1s ~ 5s+)	极低 (190ms)

一句话逻辑：

Fast-WAM 通过 MoT 结构在 5B 视频大模型里安插了"动作特务"，在训练时利用视频生成任务来磨练这些特务的物理嗅觉，但在实战中卸磨杀驴（关掉视频生成），从而实现了"有着世界模型灵魂的 VLA 速度"。

四、实验结果

4.1 仿真战场

LIBERO（长程规划和空间推理测试）

Fast-WAM 成功率：97.6%
与慢悠悠的"完整脑补派"不相上下

RoboTwin 2.0（复杂环境）

Fast-WAM 表现依然稳健

4.2 终极考验：现实世界折毛巾！

机器人：Galaxea R1 Lite
数据：60 小时遥操作数据

惊人发现

训练方式	成功率
开启视频联合训练	90%+
关闭视频联合训练	10%

关键发现

如果关掉训练时的"视频辅助"，成功率从 90%+ 暴跌到 10%！

这证明了：视频训练的价值在于训练阶段，而非推理阶段。

五、与 LeWorldModel 的对比讨论

5.1 问题引入：单帧预测的局限性

深刻质疑

如果任务比较难，需要预测的未来动作序列比较长，光看第一帧的隐变量 Token 预测后续动作的难度是不是大了些？

就好像下围棋的时候，如果不进行多步的未来棋局推演，只看当前棋局就直接落子，落子质量应该会低很多吧？

这个问题切中了具身智能界最大的争论之一：“直觉反应（System 1）“与"深思熟虑（System 2）“的路线之争。

5.2 Fast-WAM 的真实工作模式

首先要澄清：Fast-WAM 在真正干活时，并不是只看一开始的那一帧，就盲目地把未来 10 分钟的动作全预测完。

动作分块+ 闭环控制：

看当前的"第一帧”，预测未来一小段（比如 16 步或 64 步）的动作序列
执行这几步动作后，会再次睁开眼睛，把最新的画面作为新的"第一帧”，再次预测

比喻：就像你打乒乓球——你不是在发球那一刻就算好接下来 10 个回合怎么打，你是看着球飞过来，瞬间做出挥拍动作，打完再看下一回合。

5.3 Fast-WAM vs LeWorldModel：两种哲学

根据 LeWorldModel 论文（arXiv: 2603.19312，Yann LeCun 团队，2026年3月）：

🔴 Fast-WAM：“大模型 + 肌肉记忆”

特性	描述
路线	找一个看懂所有物理规律的 50亿参数"巨人”
提速方法	干活时蒙上巨人的眼睛，不让他画图，只提取物理直觉直接输出动作
延迟	190ms
适用场景	折毛巾、接飞球、动态物体操作（高频、动态、物理交互）

🔵 LeWorldModel：“小模型 + 纯粹物理法则”

特性	描述
路线	不依赖庞大预训练视频模型，从零开始学习
提速方法	只有 15M 参数（Fast-WAM 的 1/333），抛弃复杂像素生成，运行在特征空间
延迟	0.98s（含 MPC 多步推演）
适用场景	迷宫寻宝、多步骤逻辑任务、复杂环境导航

5.4 延迟对比

模型	延迟	频率	适用场景
Fast-WAM	190ms	~5 Hz	毫秒级"物理操作时间"——手已抓到门把手，感受阻力瞬间调整发力
LeWM	0.98s	~1 Hz	1秒级"战术规划时间"——走到厨房门口，推演怎么绕过障碍物

5.5 终极思考：大小脑结合

💡 未来方向

单一模型无法通吃。未来的完美机器人，一定会把两者结合起来：

大脑（System 2 - 类似 LeWorldModel）：负责在后台慢速运行。接到"做一顿年夜饭"的指令时，大脑开始推演步骤，进行 MPC，制定长程计划。

小脑（System 1 - 类似 Fast-WAM）：负责前台的高速执行。当大脑决定"现在去切土豆"时，小脑接管身体，利用极速反应和物理直觉，稳准狠地把土豆切成丝。

六、总结

核心贡献

打破迷思：证明了世界模型的力量源泉在于联合训练带来的表征提升，而非推理时的视频生成
架构创新：MoT 结构让"物理常识"和"动作反应"在同一架构里深度交融，又能在干活时"分家"
极致速度：用 50 亿参数模型的智慧，跑出轻量化模型的速度（190ms）

形象总结

这篇论文就像是一个高效的教练，告诉机器人：“我在训练场让你画画是为了让你理解肌肉发力的逻辑，等你上了战场，直接出拳就行，别在那儿画画了！”

这种"重训练、轻推理"的思路，很可能会成为 2026 年之后机器人 foundation model 的标准范式。