<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Diffusion on 朝花夕拾</title>
        <link>https://example.org/tags/diffusion/</link>
        <description>Recent content in Diffusion on 朝花夕拾</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <lastBuildDate>Thu, 16 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://example.org/tags/diffusion/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>Fast-WAM - 世界动作模型在推理时真的需要&#34;脑补&#34;未来吗？</title>
            <link>https://example.org/post/robotics/worldmodel/fast-wam/</link>
            <pubDate>Thu, 16 Apr 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/worldmodel/fast-wam/</guid>
            <description>&lt;hr&gt;&#xA;&lt;h2 id=&#34;一研究背景具身智能的两难困境&#34;&gt;一、研究背景：具身智能的&amp;quot;两难困境&amp;quot;&#xA;&lt;/h2&gt;&lt;p&gt;在机器人领域，一直存在着两派势力的较量：&lt;/p&gt;&#xA;&lt;h3 id=&#34;vla-派视觉-语言-动作模型&#34;&gt;VLA 派（视觉-语言-动作模型）&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;代表&lt;/strong&gt;：OpenVLA&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;特点&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;反应极快，看到图像就直接输出动作&lt;/li&gt;&#xA;&lt;li&gt;像&amp;quot;直觉派&amp;quot;选手，出手如电&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;不懂物理规律，不知道物体被碰后会怎样&lt;/li&gt;&#xA;&lt;li&gt;容易&amp;quot;手残&amp;quot;，在精细操作上容易出错&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;wam-派世界动作模型&#34;&gt;WAM 派（世界动作模型）&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;特点&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;不仅预测动作，还要预测未来的视频画面&lt;/li&gt;&#xA;&lt;li&gt;像&amp;quot;思辨派&amp;quot;选手，深思熟虑&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;太慢了！&lt;/strong&gt; 执行前要进行几十次 Diffusion 去噪步骤&lt;/li&gt;&#xA;&lt;li&gt;机器人动一下可能要等几秒钟，简直是&amp;quot;慢动作重播&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;核心问题&#34;&gt;核心问题&#xA;&lt;/h3&gt;&lt;blockquote class=&#34;alert alert-question&#34;&gt;&#xA;        &lt;div class=&#34;alert-header&#34;&gt;&#xA;            &lt;span class=&#34;alert-icon&#34;&gt;&lt;/span&gt;&#xA;            &lt;span class=&#34;alert-title&#34;&gt;灵魂拷问&lt;/span&gt;&#xA;        &lt;/div&gt;&#xA;        &lt;div class=&#34;alert-body&#34;&gt;&#xA;            &lt;p&gt;世界模型之所以强，是因为推理时需要&amp;quot;脑补&amp;quot;未来视频？还是因为训练时学过如何生成视频？&lt;/p&gt;&#xA;        &lt;/div&gt;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;作者大胆假设：&lt;strong&gt;视频生成的价值在于训练，而非推理。&lt;/strong&gt; 能不能既要 WAM 的&amp;quot;脑子&amp;quot;（物理常识），又要 VLA 的&amp;quot;手速&amp;quot;？&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;二fast-wam-的核心思想&#34;&gt;二、Fast-WAM 的核心思想&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心理念&#34;&gt;核心理念&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;训练时拼命&amp;quot;画画&amp;quot;，推理时只管&amp;quot;出招&amp;quot;。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;想象一下，你让一个机器人折毛巾：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;传统 WAM 是个&amp;quot;慢性子&amp;quot;：每动一下，都要先在脑子里花几秒钟&amp;quot;脑补&amp;quot;出接下来的动作会产生什么样的视频画面，然后再根据画面去出招&lt;/li&gt;&#xA;&lt;li&gt;Fast-WAM 的做法：&lt;strong&gt;在训练场让你画画是为了让你理解肌肉发力的逻辑，等上了战场，直接出拳就行，别在那儿画画了！&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;核心结论&#34;&gt;核心结论&#xA;&lt;/h3&gt;&lt;blockquote class=&#34;alert alert-tip&#34;&gt;&#xA;        &lt;div class=&#34;alert-header&#34;&gt;&#xA;            &lt;span class=&#34;alert-icon&#34;&gt;💡&lt;/span&gt;&#xA;            &lt;span class=&#34;alert-title&#34;&gt;核心发现&lt;/span&gt;&#xA;        &lt;/div&gt;&#xA;        &lt;div class=&#34;alert-body&#34;&gt;&#xA;            &lt;p&gt;世界模型的力量源泉在于&lt;strong&gt;联合训练&lt;/strong&gt;带来的表征提升，而不是推理时那花里胡哨的视频生成。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;视频训练就像是给机器人读了《物理百科全书》，不读这套书，机器人就是个瞎子；但读过之后，干活时并不需要一边干一边复述书里的内容。&lt;/strong&gt;&lt;/p&gt;&#xA;        &lt;/div&gt;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;三方法论详解&#34;&gt;三、方法论详解&#xA;&lt;/h2&gt;&lt;h3 id=&#34;31-底层基座wan22-5b-视频-transformer&#34;&gt;3.1 底层基座：Wan2.2-5B 视频 Transformer&#xA;&lt;/h3&gt;&lt;p&gt;Fast-WAM 不是从零开始的，它寄生在一个巨大的&amp;quot;智慧大脑&amp;quot;上——&lt;strong&gt;Wan2.2-5B&lt;/strong&gt;，这是一个拥有 &lt;strong&gt;50亿参数&lt;/strong&gt; 的视频生成大模型。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;它的角色&lt;/strong&gt;：提供&amp;quot;常识&amp;quot;——它知道如果手往左拨，杯子就会向左倒。&lt;/p&gt;&#xA;&lt;h3 id=&#34;32-motmixture-of-transformer架构&#34;&gt;3.2 MoT（Mixture-of-Transformer）架构&#xA;&lt;/h3&gt;&lt;p&gt;这是 Fast-WAM 最核心的&amp;quot;手术刀&amp;quot;，精准解决了&amp;quot;大模型太笨重&amp;quot;和&amp;quot;机器人要灵敏&amp;quot;之间的矛盾。&lt;/p&gt;&#xA;&lt;h4 id=&#34;形象比喻&#34;&gt;形象比喻&#xA;&lt;/h4&gt;&lt;p&gt;如果把普通的 Transformer 比作一个**&amp;ldquo;全科医生&amp;rdquo;&lt;strong&gt;（什么都干，但由于太胖，反应慢），那么 &lt;strong&gt;MoT&lt;/strong&gt; 就像是一个&lt;/strong&gt;&amp;ldquo;专家门诊部&amp;rdquo;**。&lt;/p&gt;&#xA;&lt;p&gt;MoT 在 Fast-WAM 中扮演了三个关键角色：&lt;/p&gt;&#xA;&lt;h4 id=&#34;1-知识的寄生与借力knowledge-injection&#34;&gt;1. 知识的&amp;quot;寄生与借力&amp;quot;（Knowledge Injection）&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;做法&lt;/strong&gt;：在大模型内部&amp;quot;插入&amp;quot;了一个专门处理动作的 &lt;strong&gt;Action Expert（动作专家）&lt;/strong&gt;，约 10 亿参数&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;比喻&lt;/strong&gt;：就像在一个精通物理规律的&amp;quot;老教授&amp;quot;（视频底座）大脑里，植入了一个&amp;quot;专业运动员&amp;quot;（动作专家）的运动神经&lt;/li&gt;&#xA;&lt;li&gt;运动员在做动作时，能实时调用老教授脑子里的物理常识，但他不需要老教授亲自下场画图&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;2-任务的结构化解耦task-decoupling&#34;&gt;2. 任务的&amp;quot;结构化解耦&amp;quot;（Task Decoupling）&#xA;&lt;/h4&gt;&lt;p&gt;视频预测和动作预测虽然有联系，但它们的&amp;quot;脑回路&amp;quot;是不一样的：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;视频预测&lt;/strong&gt;：关注全局，比如背景变没变，光影漂不漂亮&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;动作预测&lt;/strong&gt;：关注细节，比如夹爪现在离桌子几厘米，力道够不够&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;MoT 通过不同的 &lt;strong&gt;Router（路由）&lt;/strong&gt; 或特殊的注意力掩码，让模型在处理数据时，一部分参数专门盯着&amp;quot;画面怎么变&amp;quot;，另一部分参数专门盯着&amp;quot;手该怎么动&amp;quot;。&lt;/p&gt;&#xA;&lt;h4 id=&#34;3-实现推理大瘦身的开关the-efficiency-switch&#34;&gt;3. 实现&amp;quot;推理大瘦身&amp;quot;的开关（The Efficiency Switch）&#xA;&lt;/h4&gt;&lt;p&gt;这是 Fast-WAM 能跑得快的&lt;strong&gt;终极秘密&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;阶段&lt;/th&gt;&#xA;          &lt;th&gt;MoT 的工作状态&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;训练时&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;所有专家都上班。一边生成视频，一边预测动作。动作专家能学到：&amp;ldquo;当老教授预测毛巾会动时，我这一步的动作指令是正确的。&amp;rdquo;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;推理时&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;只让动作专家上班&lt;/strong&gt;。动作专家已经通过训练掌握了老教授的物理神髓，直接关掉负责&amp;quot;画图/渲染视频&amp;quot;的那些耗电、耗时的分支。&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;33-token-的三分法&#34;&gt;3.3 Token 的三分法&#xA;&lt;/h3&gt;&lt;p&gt;论文将输入 Token 明确划分为三大类，配合结构化掩码实现了精妙的信息流控制：&lt;/p&gt;&#xA;&lt;h4 id=&#34;-第一帧干净隐变量-token共享视觉锚点&#34;&gt;🟦 第一帧干净隐变量 Token（共享视觉锚点）&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;角色&lt;/strong&gt;：现实世界的&amp;quot;起点&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;特点&lt;/strong&gt;：干净的、不加噪声的。训练和推理都有&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;逻辑&lt;/strong&gt;：模型唯一的真实参考，所有&amp;quot;脑补&amp;quot;都必须基于这个起点&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;注意力规则&lt;/strong&gt;：孤芳自赏，谁也不看&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;-未来帧噪声-token模拟实验室素材&#34;&gt;🟨 未来帧噪声 Token（模拟实验室素材）&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;角色&lt;/strong&gt;：供视频建模用&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;特点&lt;/strong&gt;：只有训练时才塞进序列，被加了不同程度的噪声&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;命运&lt;/strong&gt;：推理时彻底踢掉&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;注意力规则&lt;/strong&gt;：可以相互双向注意，也可以看到第一帧；可以看到动作 Token&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;-动作-token最终指令输出&#34;&gt;🟥 动作 Token（最终指令输出）&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;角色&lt;/strong&gt;：由动作专家负责去噪生成动作序列&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;特点&lt;/strong&gt;：采用动作离散化，变成类似&amp;quot;单词&amp;quot;的形式&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;注意力规则&lt;/strong&gt;：只能看到第一帧，&lt;strong&gt;绝对不能看未来帧&lt;/strong&gt;——防止信息泄露！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;blockquote class=&#34;alert alert-warning&#34;&gt;&#xA;        &lt;div class=&#34;alert-header&#34;&gt;&#xA;            &lt;span class=&#34;alert-icon&#34;&gt;⚠️&lt;/span&gt;&#xA;            &lt;span class=&#34;alert-title&#34;&gt;关键设计&lt;/span&gt;&#xA;        &lt;/div&gt;&#xA;        &lt;div class=&#34;alert-body&#34;&gt;&#xA;            &lt;p&gt;动作 Token 绝对不能看未来帧！&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;原因&lt;/strong&gt;：如果训练时动作 Token 看到了未来帧，它就会发现：&amp;ldquo;哦，未来毛巾已经折好了，那我反推一下现在的动作就行。&amp;ldquo;这叫&lt;strong&gt;信息泄露&lt;/strong&gt;。这样学出来的机器人，一旦到了推理阶段（没有未来帧可以看），它就直接瘫痪了。&lt;/p&gt;&#xA;        &lt;/div&gt;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h3 id=&#34;34-精妙的防作弊注意力掩码&#34;&gt;3.4 精妙的&amp;quot;防作弊&amp;quot;注意力掩码&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;┌─────────────────────────────────────────────────────┐&#xA;│                    注意力规则表                        │&#xA;├─────────────────────────────────────────────────────┤&#xA;│ 规则 A：动作 Token (🟥) 绝对不能看未来帧 (🟨)          │&#xA;│         → 防止&amp;#34;偷看答案&amp;#34;，强迫学习物理直觉             │&#xA;│                                                     │&#xA;│ 规则 B：未来帧 (🟨) 可以看动作 Token (🟥) 和起点 (🟦)   │&#xA;│         → 保证视频生成分支学习因果关系                  │&#xA;│                                                     │&#xA;│ 规则 C：第一帧 (🟦) 谁也不看                          │&#xA;│         → 它是给定的事实，不需要被任何预测信息干扰      │&#xA;└─────────────────────────────────────────────────────┘&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;35-训练-loss-设计&#34;&gt;3.5 训练 Loss 设计&#xA;&lt;/h3&gt;&lt;p&gt;Fast-WAM 的 Loss 设计是一个**&amp;ldquo;双头并进、联合练兵&amp;rdquo;**的策略：&lt;/p&gt;&#xA;&lt;p&gt;$$L_{total} = L_{video} + \lambda L_{action}$$&lt;/p&gt;&#xA;&lt;h4 id=&#34;l_video物理规律的强制灌输&#34;&gt;$L_{video}$：物理规律的&amp;quot;强制灌输&amp;rdquo;&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;技术细节&lt;/strong&gt;：基于 &lt;strong&gt;Flow Matching（流匹配）&lt;/strong&gt; 或标准的 &lt;strong&gt;Diffusion Loss&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;通俗解释&lt;/strong&gt;：给模型一张模糊的、加了噪声的未来画面，它必须想办法还原出清晰的画面&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;作用&lt;/strong&gt;：让模型的大脑对物理世界保持敏感，练就&amp;quot;火眼金睛&amp;rdquo;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;l_action肌肉记忆的精准打磨&#34;&gt;$L_{action}$：肌肉记忆的&amp;quot;精准打磨&amp;quot;&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;技术细节&lt;/strong&gt;：采用 &lt;strong&gt;Diffusion-based Loss&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;通俗解释&lt;/strong&gt;：教练在旁边看着机器人折毛巾，每动一下就对比专业动作给出差评&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;精妙之处&lt;/strong&gt;：这个损失作用在 Action Expert 那个 1B 大小的&amp;quot;专家插件&amp;quot;上，同时也会通过反向传播微调底座&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;lambda-系数动态平衡的调音师&#34;&gt;$\lambda$ 系数：动态平衡的&amp;quot;调音师&amp;quot;&#xA;&lt;/h4&gt;&lt;p&gt;决定模型是更想当一个&amp;quot;画家&amp;quot;（视频生成）还是&amp;quot;工人&amp;quot;（动作执行）。&lt;/p&gt;&#xA;&lt;h4 id=&#34;为什么这样设计能借力打力&#34;&gt;为什么这样设计能&amp;quot;借力打力&amp;quot;？&#xA;&lt;/h4&gt;&lt;p&gt;在训练时，由于 $L_{video}$ 和 $L_{action}$ 在同一个 Transformer 结构中同时优化，它们会共享中间的 Hidden States：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;当 $L_{video}$ 强迫模型去理解&amp;quot;玻璃杯碎了&amp;quot;的物理过程时，Transformer 的中间层会产生**&amp;ldquo;具有物理感知力&amp;quot;的特征信号**&lt;/li&gt;&#xA;&lt;li&gt;负责动作预测的支路会立刻&amp;quot;偷听到&amp;quot;这个信号&lt;/li&gt;&#xA;&lt;li&gt;$L_{action}$ 的优化过程发现：&lt;strong&gt;如果借用视频分支分析出的物理特征，预测动作的准确率会大大提升！&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;结果&lt;/strong&gt;：训练结束后，动作分支已经彻底吸收了视频分支的&amp;quot;内功&amp;rdquo;。即便推理时砍掉未来帧 Token，动作分支依然能凭借已经练就的&amp;quot;肌肉记忆&amp;quot;做出符合物理规律的反应。&lt;/p&gt;&#xA;&lt;blockquote class=&#34;alert alert-quote&#34;&gt;&#xA;        &lt;div class=&#34;alert-header&#34;&gt;&#xA;            &lt;span class=&#34;alert-icon&#34;&gt;&lt;/span&gt;&#xA;            &lt;span class=&#34;alert-title&#34;&gt;形象比喻&lt;/span&gt;&#xA;        &lt;/div&gt;&#xA;        &lt;div class=&#34;alert-body&#34;&gt;&#xA;            &lt;p&gt;Fast-WAM 的 Loss 设计就像是一个&lt;strong&gt;双人舞训练&lt;/strong&gt;。视频 Loss 负责教舞步的逻辑和平衡感，动作 Loss 负责教力量和落点。虽然演出时只有动作分支上台，但他脑子里记着的，全都是排练时视频分支带给他的节奏感。&lt;/p&gt;&#xA;        &lt;/div&gt;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h3 id=&#34;36-推理逻辑想象力截断&#34;&gt;3.6 推理逻辑：想象力&amp;quot;截断&amp;quot;&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;特性&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;传统视频动作模型 (WAM)&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;Fast-WAM&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;推理步骤&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;去噪采样&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;单次前向传播&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;性能瓶颈&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;必须生成高清视频像素&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;只计算潜在特征&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;物理理解&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;靠&amp;quot;看图&amp;quot;来确认&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;靠&amp;quot;联合训练&amp;quot;内化到权重中&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;延迟&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;很高 (1s ~ 5s+)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;极低 (190ms)&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;一句话逻辑&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;Fast-WAM 通过 MoT 结构在 5B 视频大模型里安插了&amp;quot;动作特务&amp;quot;，在训练时利用视频生成任务来磨练这些特务的物理嗅觉，但在实战中&lt;strong&gt;卸磨杀驴&lt;/strong&gt;（关掉视频生成），从而实现了&amp;quot;有着世界模型灵魂的 VLA 速度&amp;quot;。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;四实验结果&#34;&gt;四、实验结果&#xA;&lt;/h2&gt;&lt;h3 id=&#34;41-仿真战场&#34;&gt;4.1 仿真战场&#xA;&lt;/h3&gt;&lt;h4 id=&#34;libero长程规划和空间推理测试&#34;&gt;LIBERO（长程规划和空间推理测试）&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;Fast-WAM 成功率：&lt;strong&gt;97.6%&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;与慢悠悠的&amp;quot;完整脑补派&amp;quot;不相上下&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;robotwin-20复杂环境&#34;&gt;RoboTwin 2.0（复杂环境）&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;Fast-WAM 表现依然稳健&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;42-终极考验现实世界折毛巾&#34;&gt;4.2 终极考验：现实世界折毛巾！&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;机器人：&lt;strong&gt;Galaxea R1 Lite&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;数据：60 小时遥操作数据&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;惊人发现&#34;&gt;惊人发现&#xA;&lt;/h4&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;训练方式&lt;/th&gt;&#xA;          &lt;th&gt;成功率&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;开启视频联合训练&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;90%+&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;关闭视频联合训练&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;10%&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;blockquote class=&#34;alert alert-danger&#34;&gt;&#xA;        &lt;div class=&#34;alert-header&#34;&gt;&#xA;            &lt;span class=&#34;alert-icon&#34;&gt;&lt;/span&gt;&#xA;            &lt;span class=&#34;alert-title&#34;&gt;关键发现&lt;/span&gt;&#xA;        &lt;/div&gt;&#xA;        &lt;div class=&#34;alert-body&#34;&gt;&#xA;            &lt;p&gt;如果关掉训练时的&amp;quot;视频辅助&amp;quot;，成功率从 90%+ 暴跌到 10%！&lt;/p&gt;&#xA;&lt;p&gt;这证明了：&lt;strong&gt;视频训练的价值在于训练阶段，而非推理阶段。&lt;/strong&gt;&lt;/p&gt;&#xA;        &lt;/div&gt;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;五与-leworldmodel-的对比讨论&#34;&gt;五、与 LeWorldModel 的对比讨论&#xA;&lt;/h2&gt;&lt;h3 id=&#34;51-问题引入单帧预测的局限性&#34;&gt;5.1 问题引入：单帧预测的局限性&#xA;&lt;/h3&gt;&lt;blockquote class=&#34;alert alert-question&#34;&gt;&#xA;        &lt;div class=&#34;alert-header&#34;&gt;&#xA;            &lt;span class=&#34;alert-icon&#34;&gt;&lt;/span&gt;&#xA;            &lt;span class=&#34;alert-title&#34;&gt;深刻质疑&lt;/span&gt;&#xA;        &lt;/div&gt;&#xA;        &lt;div class=&#34;alert-body&#34;&gt;&#xA;            &lt;p&gt;如果任务比较难，需要预测的未来动作序列比较长，光看第一帧的隐变量 Token 预测后续动作的难度是不是大了些？&lt;/p&gt;&#xA;&lt;p&gt;就好像下围棋的时候，如果不进行多步的未来棋局推演，只看当前棋局就直接落子，落子质量应该会低很多吧？&lt;/p&gt;&#xA;        &lt;/div&gt;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;这个问题切中了具身智能界最大的争论之一：&lt;strong&gt;&amp;ldquo;直觉反应（System 1）&amp;ldquo;与&amp;quot;深思熟虑（System 2）&amp;ldquo;的路线之争&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;52-fast-wam-的真实工作模式&#34;&gt;5.2 Fast-WAM 的真实工作模式&#xA;&lt;/h3&gt;&lt;p&gt;首先要澄清：Fast-WAM 在真正干活时，&lt;strong&gt;并不是只看一开始的那一帧，就盲目地把未来 10 分钟的动作全预测完。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;动作分块+ 闭环控制&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;看当前的&amp;quot;第一帧&amp;rdquo;，预测未来一小段（比如 16 步或 64 步）的动作序列&lt;/li&gt;&#xA;&lt;li&gt;执行这几步动作后，会&lt;strong&gt;再次睁开眼睛&lt;/strong&gt;，把最新的画面作为新的&amp;quot;第一帧&amp;rdquo;，再次预测&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;比喻&lt;/strong&gt;：就像你打乒乓球——你不是在发球那一刻就算好接下来 10 个回合怎么打，你是看着球飞过来，瞬间做出挥拍动作，打完再看下一回合。&lt;/p&gt;&#xA;&lt;h3 id=&#34;53-fast-wam-vs-leworldmodel两种哲学&#34;&gt;5.3 Fast-WAM vs LeWorldModel：两种哲学&#xA;&lt;/h3&gt;&lt;p&gt;根据 LeWorldModel 论文（arXiv: 2603.19312，Yann LeCun 团队，2026年3月）：&lt;/p&gt;&#xA;&lt;h4 id=&#34;-fast-wam大模型--肌肉记忆&#34;&gt;🔴 Fast-WAM：&amp;ldquo;大模型 + 肌肉记忆&amp;rdquo;&#xA;&lt;/h4&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;特性&lt;/th&gt;&#xA;          &lt;th&gt;描述&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;路线&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;找一个看懂所有物理规律的 50亿参数&amp;quot;巨人&amp;rdquo;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;提速方法&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;干活时蒙上巨人的眼睛，不让他画图，只提取物理直觉直接输出动作&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;延迟&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;190ms&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;适用场景&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;折毛巾、接飞球、动态物体操作（高频、动态、物理交互）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h4 id=&#34;-leworldmodel小模型--纯粹物理法则&#34;&gt;🔵 LeWorldModel：&amp;ldquo;小模型 + 纯粹物理法则&amp;rdquo;&#xA;&lt;/h4&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;特性&lt;/th&gt;&#xA;          &lt;th&gt;描述&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;路线&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;不依赖庞大预训练视频模型，从零开始学习&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;提速方法&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;只有 &lt;strong&gt;15M&lt;/strong&gt; 参数（Fast-WAM 的 1/333），抛弃复杂像素生成，运行在特征空间&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;延迟&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;0.98s&lt;/strong&gt;（含 MPC 多步推演）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;适用场景&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;迷宫寻宝、多步骤逻辑任务、复杂环境导航&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;54-延迟对比&#34;&gt;5.4 延迟对比&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;模型&lt;/th&gt;&#xA;          &lt;th&gt;延迟&lt;/th&gt;&#xA;          &lt;th&gt;频率&lt;/th&gt;&#xA;          &lt;th&gt;适用场景&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;Fast-WAM&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;190ms&lt;/td&gt;&#xA;          &lt;td&gt;~5 Hz&lt;/td&gt;&#xA;          &lt;td&gt;毫秒级&amp;quot;物理操作时间&amp;quot;——手已抓到门把手，感受阻力瞬间调整发力&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;LeWM&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;0.98s&lt;/td&gt;&#xA;          &lt;td&gt;~1 Hz&lt;/td&gt;&#xA;          &lt;td&gt;1秒级&amp;quot;战术规划时间&amp;quot;——走到厨房门口，推演怎么绕过障碍物&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;55-终极思考大小脑结合&#34;&gt;5.5 终极思考：大小脑结合&#xA;&lt;/h3&gt;&lt;blockquote class=&#34;alert alert-tip&#34;&gt;&#xA;        &lt;div class=&#34;alert-header&#34;&gt;&#xA;            &lt;span class=&#34;alert-icon&#34;&gt;💡&lt;/span&gt;&#xA;            &lt;span class=&#34;alert-title&#34;&gt;未来方向&lt;/span&gt;&#xA;        &lt;/div&gt;&#xA;        &lt;div class=&#34;alert-body&#34;&gt;&#xA;            &lt;p&gt;单一模型无法通吃。未来的完美机器人，一定会把两者结合起来：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;&lt;strong&gt;大脑（System 2 - 类似 LeWorldModel）&lt;/strong&gt;：负责在后台慢速运行。接到&amp;quot;做一顿年夜饭&amp;quot;的指令时，大脑开始推演步骤，进行 MPC，制定长程计划。&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;&lt;strong&gt;小脑（System 1 - 类似 Fast-WAM）&lt;/strong&gt;：负责前台的高速执行。当大脑决定&amp;quot;现在去切土豆&amp;quot;时，小脑接管身体，利用极速反应和物理直觉，稳准狠地把土豆切成丝。&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;        &lt;/div&gt;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;六总结&#34;&gt;六、总结&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心贡献&#34;&gt;核心贡献&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;打破迷思&lt;/strong&gt;：证明了世界模型的力量源泉在于联合训练带来的表征提升，而非推理时的视频生成&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;架构创新&lt;/strong&gt;：MoT 结构让&amp;quot;物理常识&amp;quot;和&amp;quot;动作反应&amp;quot;在同一架构里深度交融，又能在干活时&amp;quot;分家&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;极致速度&lt;/strong&gt;：用 50 亿参数模型的智慧，跑出轻量化模型的速度（190ms）&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h3 id=&#34;形象总结&#34;&gt;形象总结&#xA;&lt;/h3&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;这篇论文就像是一个高效的教练，告诉机器人：&amp;ldquo;我在训练场让你画画是为了让你理解肌肉发力的逻辑，等你上了战场，直接出拳就行，别在那儿画画了！&amp;rdquo;&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;这种&amp;quot;重训练、轻推理&amp;quot;的思路，很可能会成为 2026 年之后机器人 foundation model 的标准范式。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;相关阅读&#34;&gt;相关阅读&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;[[LeWorldModel]] - LeCun 团队的 JEPA 架构世界模型，提供了另一种&amp;quot;快&amp;quot;的哲学&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;</description>
        </item></channel>
</rss>
