一、研究背景:具身智能的"两难困境"
在机器人领域,一直存在着两派势力的较量:
VLA 派(视觉-语言-动作模型)
代表:OpenVLA
特点:
- 反应极快,看到图像就直接输出动作
- 像"直觉派"选手,出手如电
缺点:
- 不懂物理规律,不知道物体被碰后会怎样
- 容易"手残",在精细操作上容易出错
WAM 派(世界动作模型)
特点:
- 不仅预测动作,还要预测未来的视频画面
- 像"思辨派"选手,深思熟虑
缺点:
- 太慢了! 执行前要进行几十次 Diffusion 去噪步骤
- 机器人动一下可能要等几秒钟,简直是"慢动作重播"
核心问题
灵魂拷问世界模型之所以强,是因为推理时需要"脑补"未来视频?还是因为训练时学过如何生成视频?
作者大胆假设:视频生成的价值在于训练,而非推理。 能不能既要 WAM 的"脑子"(物理常识),又要 VLA 的"手速"?
二、Fast-WAM 的核心思想
核心理念
训练时拼命"画画",推理时只管"出招"。
想象一下,你让一个机器人折毛巾:
- 传统 WAM 是个"慢性子":每动一下,都要先在脑子里花几秒钟"脑补"出接下来的动作会产生什么样的视频画面,然后再根据画面去出招
- Fast-WAM 的做法:在训练场让你画画是为了让你理解肌肉发力的逻辑,等上了战场,直接出拳就行,别在那儿画画了!
核心结论
核心发现世界模型的力量源泉在于联合训练带来的表征提升,而不是推理时那花里胡哨的视频生成。
视频训练就像是给机器人读了《物理百科全书》,不读这套书,机器人就是个瞎子;但读过之后,干活时并不需要一边干一边复述书里的内容。
三、方法论详解
3.1 底层基座:Wan2.2-5B 视频 Transformer
Fast-WAM 不是从零开始的,它寄生在一个巨大的"智慧大脑"上——Wan2.2-5B,这是一个拥有 50亿参数 的视频生成大模型。
它的角色:提供"常识"——它知道如果手往左拨,杯子就会向左倒。
3.2 MoT(Mixture-of-Transformer)架构
这是 Fast-WAM 最核心的"手术刀",精准解决了"大模型太笨重"和"机器人要灵敏"之间的矛盾。
形象比喻
如果把普通的 Transformer 比作一个**“全科医生”(什么都干,但由于太胖,反应慢),那么 MoT 就像是一个“专家门诊部”**。
MoT 在 Fast-WAM 中扮演了三个关键角色:
1. 知识的"寄生与借力"(Knowledge Injection)
- 做法:在大模型内部"插入"了一个专门处理动作的 Action Expert(动作专家),约 10 亿参数
- 比喻:就像在一个精通物理规律的"老教授"(视频底座)大脑里,植入了一个"专业运动员"(动作专家)的运动神经
- 运动员在做动作时,能实时调用老教授脑子里的物理常识,但他不需要老教授亲自下场画图
2. 任务的"结构化解耦"(Task Decoupling)
视频预测和动作预测虽然有联系,但它们的"脑回路"是不一样的:
- 视频预测:关注全局,比如背景变没变,光影漂不漂亮
- 动作预测:关注细节,比如夹爪现在离桌子几厘米,力道够不够
MoT 通过不同的 Router(路由) 或特殊的注意力掩码,让模型在处理数据时,一部分参数专门盯着"画面怎么变",另一部分参数专门盯着"手该怎么动"。
3. 实现"推理大瘦身"的开关(The Efficiency Switch)
这是 Fast-WAM 能跑得快的终极秘密:
| 阶段 | MoT 的工作状态 |
|---|---|
| 训练时 | 所有专家都上班。一边生成视频,一边预测动作。动作专家能学到:“当老教授预测毛巾会动时,我这一步的动作指令是正确的。” |
| 推理时 | 只让动作专家上班。动作专家已经通过训练掌握了老教授的物理神髓,直接关掉负责"画图/渲染视频"的那些耗电、耗时的分支。 |
3.3 Token 的三分法
论文将输入 Token 明确划分为三大类,配合结构化掩码实现了精妙的信息流控制:
🟦 第一帧干净隐变量 Token(共享视觉锚点)
- 角色:现实世界的"起点"
- 特点:干净的、不加噪声的。训练和推理都有
- 逻辑:模型唯一的真实参考,所有"脑补"都必须基于这个起点
- 注意力规则:孤芳自赏,谁也不看
🟨 未来帧噪声 Token(模拟实验室素材)
- 角色:供视频建模用
- 特点:只有训练时才塞进序列,被加了不同程度的噪声
- 命运:推理时彻底踢掉
- 注意力规则:可以相互双向注意,也可以看到第一帧;可以看到动作 Token
🟥 动作 Token(最终指令输出)
- 角色:由动作专家负责去噪生成动作序列
- 特点:采用动作离散化,变成类似"单词"的形式
- 注意力规则:只能看到第一帧,绝对不能看未来帧——防止信息泄露!
关键设计动作 Token 绝对不能看未来帧!
原因:如果训练时动作 Token 看到了未来帧,它就会发现:“哦,未来毛巾已经折好了,那我反推一下现在的动作就行。“这叫信息泄露。这样学出来的机器人,一旦到了推理阶段(没有未来帧可以看),它就直接瘫痪了。
3.4 精妙的"防作弊"注意力掩码
┌─────────────────────────────────────────────────────┐
│ 注意力规则表 │
├─────────────────────────────────────────────────────┤
│ 规则 A:动作 Token (🟥) 绝对不能看未来帧 (🟨) │
│ → 防止"偷看答案",强迫学习物理直觉 │
│ │
│ 规则 B:未来帧 (🟨) 可以看动作 Token (🟥) 和起点 (🟦) │
│ → 保证视频生成分支学习因果关系 │
│ │
│ 规则 C:第一帧 (🟦) 谁也不看 │
│ → 它是给定的事实,不需要被任何预测信息干扰 │
└─────────────────────────────────────────────────────┘
3.5 训练 Loss 设计
Fast-WAM 的 Loss 设计是一个**“双头并进、联合练兵”**的策略:
$$L_{total} = L_{video} + \lambda L_{action}$$
$L_{video}$:物理规律的"强制灌输”
- 技术细节:基于 Flow Matching(流匹配) 或标准的 Diffusion Loss
- 通俗解释:给模型一张模糊的、加了噪声的未来画面,它必须想办法还原出清晰的画面
- 作用:让模型的大脑对物理世界保持敏感,练就"火眼金睛”
$L_{action}$:肌肉记忆的"精准打磨"
- 技术细节:采用 Diffusion-based Loss
- 通俗解释:教练在旁边看着机器人折毛巾,每动一下就对比专业动作给出差评
- 精妙之处:这个损失作用在 Action Expert 那个 1B 大小的"专家插件"上,同时也会通过反向传播微调底座
$\lambda$ 系数:动态平衡的"调音师"
决定模型是更想当一个"画家"(视频生成)还是"工人"(动作执行)。
为什么这样设计能"借力打力"?
在训练时,由于 $L_{video}$ 和 $L_{action}$ 在同一个 Transformer 结构中同时优化,它们会共享中间的 Hidden States:
- 当 $L_{video}$ 强迫模型去理解"玻璃杯碎了"的物理过程时,Transformer 的中间层会产生**“具有物理感知力"的特征信号**
- 负责动作预测的支路会立刻"偷听到"这个信号
- $L_{action}$ 的优化过程发现:如果借用视频分支分析出的物理特征,预测动作的准确率会大大提升!
结果:训练结束后,动作分支已经彻底吸收了视频分支的"内功”。即便推理时砍掉未来帧 Token,动作分支依然能凭借已经练就的"肌肉记忆"做出符合物理规律的反应。
形象比喻Fast-WAM 的 Loss 设计就像是一个双人舞训练。视频 Loss 负责教舞步的逻辑和平衡感,动作 Loss 负责教力量和落点。虽然演出时只有动作分支上台,但他脑子里记着的,全都是排练时视频分支带给他的节奏感。
3.6 推理逻辑:想象力"截断"
| 特性 | 传统视频动作模型 (WAM) | Fast-WAM |
|---|---|---|
| 推理步骤 | 去噪采样 | 单次前向传播 |
| 性能瓶颈 | 必须生成高清视频像素 | 只计算潜在特征 |
| 物理理解 | 靠"看图"来确认 | 靠"联合训练"内化到权重中 |
| 延迟 | 很高 (1s ~ 5s+) | 极低 (190ms) |
一句话逻辑:
Fast-WAM 通过 MoT 结构在 5B 视频大模型里安插了"动作特务",在训练时利用视频生成任务来磨练这些特务的物理嗅觉,但在实战中卸磨杀驴(关掉视频生成),从而实现了"有着世界模型灵魂的 VLA 速度"。
四、实验结果
4.1 仿真战场
LIBERO(长程规划和空间推理测试)
- Fast-WAM 成功率:97.6%
- 与慢悠悠的"完整脑补派"不相上下
RoboTwin 2.0(复杂环境)
- Fast-WAM 表现依然稳健
4.2 终极考验:现实世界折毛巾!
- 机器人:Galaxea R1 Lite
- 数据:60 小时遥操作数据
惊人发现
| 训练方式 | 成功率 |
|---|---|
| 开启视频联合训练 | 90%+ |
| 关闭视频联合训练 | 10% |
关键发现如果关掉训练时的"视频辅助",成功率从 90%+ 暴跌到 10%!
这证明了:视频训练的价值在于训练阶段,而非推理阶段。
五、与 LeWorldModel 的对比讨论
5.1 问题引入:单帧预测的局限性
深刻质疑如果任务比较难,需要预测的未来动作序列比较长,光看第一帧的隐变量 Token 预测后续动作的难度是不是大了些?
就好像下围棋的时候,如果不进行多步的未来棋局推演,只看当前棋局就直接落子,落子质量应该会低很多吧?
这个问题切中了具身智能界最大的争论之一:“直觉反应(System 1)“与"深思熟虑(System 2)“的路线之争。
5.2 Fast-WAM 的真实工作模式
首先要澄清:Fast-WAM 在真正干活时,并不是只看一开始的那一帧,就盲目地把未来 10 分钟的动作全预测完。
动作分块+ 闭环控制:
- 看当前的"第一帧”,预测未来一小段(比如 16 步或 64 步)的动作序列
- 执行这几步动作后,会再次睁开眼睛,把最新的画面作为新的"第一帧”,再次预测
比喻:就像你打乒乓球——你不是在发球那一刻就算好接下来 10 个回合怎么打,你是看着球飞过来,瞬间做出挥拍动作,打完再看下一回合。
5.3 Fast-WAM vs LeWorldModel:两种哲学
根据 LeWorldModel 论文(arXiv: 2603.19312,Yann LeCun 团队,2026年3月):
🔴 Fast-WAM:“大模型 + 肌肉记忆”
| 特性 | 描述 |
|---|---|
| 路线 | 找一个看懂所有物理规律的 50亿参数"巨人” |
| 提速方法 | 干活时蒙上巨人的眼睛,不让他画图,只提取物理直觉直接输出动作 |
| 延迟 | 190ms |
| 适用场景 | 折毛巾、接飞球、动态物体操作(高频、动态、物理交互) |
🔵 LeWorldModel:“小模型 + 纯粹物理法则”
| 特性 | 描述 |
|---|---|
| 路线 | 不依赖庞大预训练视频模型,从零开始学习 |
| 提速方法 | 只有 15M 参数(Fast-WAM 的 1/333),抛弃复杂像素生成,运行在特征空间 |
| 延迟 | 0.98s(含 MPC 多步推演) |
| 适用场景 | 迷宫寻宝、多步骤逻辑任务、复杂环境导航 |
5.4 延迟对比
| 模型 | 延迟 | 频率 | 适用场景 |
|---|---|---|---|
| Fast-WAM | 190ms | ~5 Hz | 毫秒级"物理操作时间"——手已抓到门把手,感受阻力瞬间调整发力 |
| LeWM | 0.98s | ~1 Hz | 1秒级"战术规划时间"——走到厨房门口,推演怎么绕过障碍物 |
5.5 终极思考:大小脑结合
未来方向单一模型无法通吃。未来的完美机器人,一定会把两者结合起来:
大脑(System 2 - 类似 LeWorldModel):负责在后台慢速运行。接到"做一顿年夜饭"的指令时,大脑开始推演步骤,进行 MPC,制定长程计划。
小脑(System 1 - 类似 Fast-WAM):负责前台的高速执行。当大脑决定"现在去切土豆"时,小脑接管身体,利用极速反应和物理直觉,稳准狠地把土豆切成丝。
六、总结
核心贡献
- 打破迷思:证明了世界模型的力量源泉在于联合训练带来的表征提升,而非推理时的视频生成
- 架构创新:MoT 结构让"物理常识"和"动作反应"在同一架构里深度交融,又能在干活时"分家"
- 极致速度:用 50 亿参数模型的智慧,跑出轻量化模型的速度(190ms)
形象总结
这篇论文就像是一个高效的教练,告诉机器人:“我在训练场让你画画是为了让你理解肌肉发力的逻辑,等你上了战场,直接出拳就行,别在那儿画画了!”
这种"重训练、轻推理"的思路,很可能会成为 2026 年之后机器人 foundation model 的标准范式。
相关阅读
- [[LeWorldModel]] - LeCun 团队的 JEPA 架构世界模型,提供了另一种"快"的哲学