<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>ReinforcementLearning on 朝花夕拾</title>
        <link>https://example.org/tags/reinforcementlearning/</link>
        <description>Recent content in ReinforcementLearning on 朝花夕拾</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <lastBuildDate>Wed, 08 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://example.org/tags/reinforcementlearning/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>LeWorldModel - 稳定的端到端联合嵌入预测架构世界模型</title>
            <link>https://example.org/post/robotics/worldmodel/le-world-model/</link>
            <pubDate>Wed, 08 Apr 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/worldmodel/le-world-model/</guid>
            <description>&lt;hr&gt;&#xA;&lt;h2 id=&#34;目录&#34;&gt;目录&#xA;&lt;/h2&gt;&lt;ol&gt;&#xA;&lt;li&gt;[[#一、论文概述：大道至简的&amp;quot;绝世武功&amp;quot;]]&lt;/li&gt;&#xA;&lt;li&gt;[[#二、核心痛点：特征坍缩的幽灵]]&lt;/li&gt;&#xA;&lt;li&gt;[[#三、方法论：两步走练就火眼金睛]]&lt;/li&gt;&#xA;&lt;li&gt;[[#四、规划性能表现：赛道狂飙，稳如老狗]]&lt;/li&gt;&#xA;&lt;li&gt;[[#五、量化物理理解：不仅会看，还懂点物理]]&lt;/li&gt;&#xA;&lt;li&gt;[[#六、结论与局限性]]&lt;/li&gt;&#xA;&lt;li&gt;[[#七、深度问答：那些让人拍案叫绝的细节]]&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;一论文概述大道至简的绝世武功&#34;&gt;一、论文概述：大道至简的&amp;quot;绝世武功&amp;quot;&#xA;&lt;/h2&gt;&lt;h3 id=&#34;11-核心贡献&#34;&gt;1.1 核心贡献&#xA;&lt;/h3&gt;&lt;p&gt;这篇论文提出了史上首个能从纯像素端到端稳定训练的 &lt;strong&gt;JEPA（联合嵌入预测架构）&lt;/strong&gt; 世界模型——&lt;strong&gt;LeWorldModel (LeWM)&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;p&gt;它的核心创新可以用一句话概括：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;仅仅依靠两个损失项，把超参数从6个骤降到1个！&lt;/strong&gt;&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h3 id=&#34;12-惊人的数字&#34;&gt;1.2 惊人的数字&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;指标&lt;/th&gt;&#xA;          &lt;th&gt;数值&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;模型参数量&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;1500万&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;训练需求&lt;/td&gt;&#xA;          &lt;td&gt;单张GPU，几小时&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;规划速度&lt;/td&gt;&#xA;          &lt;td&gt;比 DINO-WM &lt;strong&gt;快48倍&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;超参数数量&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;仅1个&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;13-jepa-vs-生成式世界模型&#34;&gt;1.3 JEPA vs 生成式世界模型&#xA;&lt;/h3&gt;&lt;p&gt;论文中对比了两大流派：&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;生成派世界模型&lt;/strong&gt;（如 Dreamer, Oasis）：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;直接预测未来的像素画面&lt;/li&gt;&#xA;&lt;li&gt;算力开销大，高度依赖奖励信号&lt;/li&gt;&#xA;&lt;li&gt;像是一个&lt;strong&gt;写实派画家&lt;/strong&gt;——能画出极度逼真的未来，但画得太慢&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;JEPA派&lt;/strong&gt;（如 I-JEPA, PLDM, DINO-WM）：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在高维潜空间进行特征预测&lt;/li&gt;&#xA;&lt;li&gt;无奖励、重特征&lt;/li&gt;&#xA;&lt;li&gt;像是一个&lt;strong&gt;极简派战略家&lt;/strong&gt;——推演速度极快，但容易偷懒作弊（特征坍缩）&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;而 &lt;strong&gt;LeWorldModel&lt;/strong&gt; 做到了：既坚守了&amp;quot;战略家&amp;quot;极速、抓重点的优势，又用一套绝妙的数学法则彻底封死了偷懒作弊的后路！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;二核心痛点特征坍缩的幽灵&#34;&gt;二、核心痛点：特征坍缩的幽灵&#xA;&lt;/h2&gt;&lt;h3 id=&#34;21-什么是特征坍缩&#34;&gt;2.1 什么是特征坍缩？&#xA;&lt;/h3&gt;&lt;p&gt;想象一下，我们想让AI通过观察像素画面来预测未来。JEPA架构不傻乎乎地去预测每一个像素点，而是提取画面核心特征，在&amp;quot;高维潜空间&amp;quot;里进行预测。&lt;/p&gt;&#xA;&lt;p&gt;但JEPA有个致命缺陷——&lt;strong&gt;&amp;ldquo;特征坍缩&amp;rdquo;&lt;/strong&gt;：AI为了最小化预测误差，会疯狂偷懒，把所有画面都预测成同一个常数特征，直接罢工！&lt;/p&gt;&#xA;&lt;h3 id=&#34;22-为什么输出常数能最小化误差&#34;&gt;2.2 为什么输出常数能最小化误差？&#xA;&lt;/h3&gt;&lt;p&gt;用&amp;quot;考试&amp;quot;的比喻来解释：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;出题人（Encoder 编码器）&lt;/strong&gt;：负责看未来的真实画面，提取出&amp;quot;标准答案&amp;quot;（特征向量）&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;答题人（Predictor 预测器）&lt;/strong&gt;：负责看过去的画面和动作，猜出未来的&amp;quot;预测答案&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;考试的目标只有一个：让&amp;quot;预测答案&amp;quot;和&amp;quot;标准答案&amp;quot;越接近越好。&lt;/p&gt;&#xA;&lt;p&gt;如果&amp;quot;出题人&amp;quot;和&amp;quot;答题人&amp;quot;可以私底下互相沟通（在端到端训练中，它们的参数是一起更新的），他们会怎么做？&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;他们会直接串通作弊！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;出题人说：&amp;ldquo;兄弟，不管我看到什么复杂的画面，我都把标准答案写成 &lt;code&gt;C&lt;/code&gt;。&amp;rdquo;&#xA;答题人说：&amp;ldquo;太好了，那我不管三七二十一，永远都猜 &lt;code&gt;C&lt;/code&gt;。&amp;rdquo;&lt;/p&gt;&#xA;&lt;p&gt;结果：&lt;strong&gt;每次答题全都对得上，预测误差直接变成了绝对的0！&lt;/strong&gt; 但实际上，他们什么知识都没学到。&lt;/p&gt;&#xA;&lt;h3 id=&#34;23-为什么不直接预测像素&#34;&gt;2.3 为什么不直接预测像素？&#xA;&lt;/h3&gt;&lt;p&gt;这是一个非常直观的想法：既然要对比，为什么不直接让预测器预测未来帧的图像，然后对比预测图像和真实图像的差异？&lt;/p&gt;&#xA;&lt;p&gt;这确实是另一大流派（生成式世界模型）的思路。但预测像素会带来三个致命问题：&lt;/p&gt;&#xA;&lt;h4 id=&#34;问题1风中的树叶难题&#34;&gt;问题1：&amp;ldquo;风中的树叶&amp;quot;难题&#xA;&lt;/h4&gt;&lt;p&gt;想象你正在开一辆自动驾驶汽车，路边有一棵树，树叶在风中疯狂摇摆。&lt;/p&gt;&#xA;&lt;p&gt;如果你的大脑是一个&amp;quot;预测像素&amp;quot;的世界模型，为了让 Loss 变小，你的大脑必须耗费极其庞大的算力去预测&amp;quot;下一秒，这第一万零三十二片树叶会飘到什么角度&amp;rdquo;。&lt;/p&gt;&#xA;&lt;p&gt;但这对你开车有任何意义吗？&lt;strong&gt;毫无意义！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;h4 id=&#34;问题2模糊的未来难题&#34;&gt;问题2：&amp;ldquo;模糊的未来&amp;quot;难题&#xA;&lt;/h4&gt;&lt;p&gt;真实世界充满随机性。假设你扔了一枚硬币，下一秒它可能是正面，也可能是反面。&lt;/p&gt;&#xA;&lt;p&gt;如果让AI用 MSE 去预测下一帧画面的像素，它不敢画正面，也不敢画反面，而是会把正面和反面的像素叠加在一起取平均，最后画出一个&amp;quot;模糊的、半透明的幽灵硬币&amp;rdquo;。&lt;/p&gt;&#xA;&lt;h4 id=&#34;问题3规划速度极其龟速&#34;&gt;问题3：规划速度极其龟速&#xA;&lt;/h4&gt;&lt;p&gt;在做动作规划时，AI需要在脑海里撒出300条路线，每条路线往后推演好几步。如果用&amp;quot;预测像素&amp;quot;的模型，算力根本扛不住。&lt;/p&gt;&#xA;&lt;p&gt;而 LeWorldModel 因为完全抛弃了像素，&lt;strong&gt;只在极其轻量的高维特征空间里进行纯数学向量的推演，规划速度飙升了48倍！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;三方法论两步走练就火眼金睛&#34;&gt;三、方法论：两步走练就火眼金睛&#xA;&lt;/h2&gt;&lt;p&gt;LeWM的内功心法非常清晰，主要分为**&amp;ldquo;世界模型训练&amp;rdquo;&lt;strong&gt;和&lt;/strong&gt;&amp;ldquo;潜空间规划&amp;rdquo;**两步。&lt;/p&gt;&#xA;&lt;h3 id=&#34;31-训练世界模型&#34;&gt;3.1 训练世界模型&#xA;&lt;/h3&gt;&lt;h4 id=&#34;数据源&#34;&gt;数据源&#xA;&lt;/h4&gt;&lt;p&gt;无需任何奖励标签的离线轨迹数据（纯像素画面 + 动作）。&lt;/p&gt;&#xA;&lt;h4 id=&#34;编码器encoder&#34;&gt;编码器（Encoder）&#xA;&lt;/h4&gt;&lt;p&gt;采用轻量的 &lt;strong&gt;ViT-Tiny&lt;/strong&gt;（约500万参数）。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;魔鬼细节&lt;/strong&gt;：作者特意把ViT最后一层的 Layer Normalization 替换成了&amp;quot;单层 MLP + Batch Normalization&amp;quot;。因为 LayerNorm 会阻碍后续抗坍缩正则化的发挥！&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h4 id=&#34;预测器predictor&#34;&gt;预测器（Predictor）&#xA;&lt;/h4&gt;&lt;p&gt;采用 &lt;strong&gt;ViT-Small&lt;/strong&gt;（约1000万参数，带10% Dropout）。它能看前N帧的记忆，通过带因果掩码的自回归来预测下一帧。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;动作如何输入？&lt;/strong&gt; 作者巧妙使用了 &lt;strong&gt;AdaLN（自适应层归一化）&lt;/strong&gt; 融合动作信息，并将其参数初始化为0，让模型在训练初期更平稳。&lt;/p&gt;&#xA;&lt;h4 id=&#34;两大绝招训练目标&#34;&gt;两大绝招（训练目标）&#xA;&lt;/h4&gt;&lt;p&gt;&lt;strong&gt;1. 预测损失（MSE）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;要求模型预测的未来特征和真实的未来特征尽量吻合。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;2. 防坍缩神技（SIGReg 正则化）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;为了不让模型偷懒输出同一个值，SIGReg强制要求潜空间的特征分布必须长得像一个&amp;quot;各向同性的高斯分布&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;高维空间太难搞？根据数学上的 &lt;strong&gt;Cramér-Wold 定理&lt;/strong&gt;，LeWM 将高维特征随机投影到 $M$ 个（默认1024个）一维方向上，然后用 &lt;strong&gt;Epps-Pulley 正态性检验公式&lt;/strong&gt;去算一维分布的拟合度。&lt;/p&gt;&#xA;&lt;h3 id=&#34;32-为什么是正态分布&#34;&gt;3.2 为什么是正态分布？&#xA;&lt;/h3&gt;&lt;p&gt;这是一个直击灵魂的问题：为什么不能让特征散成一个正方体（均匀分布）、一个甜甜圈、或者一颗五角星？&lt;/p&gt;&#xA;&lt;h4 id=&#34;信息论视角最能装的行李箱&#34;&gt;信息论视角：&amp;ldquo;最能装&amp;quot;的行李箱&#xA;&lt;/h4&gt;&lt;p&gt;在方差固定的情况下，&lt;strong&gt;正态分布是所有分布中&amp;quot;熵&amp;quot;最大的&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;p&gt;熵代表了&amp;quot;信息量&amp;rdquo;。如果特征呈现正态分布，意味着它们在给定的空间里，达到了&amp;quot;最大程度的无序与丰富&amp;quot;，把空间的每一个缝隙都利用到了极致。&lt;/p&gt;&#xA;&lt;h4 id=&#34;几何学视角绝对公平的完美圆球&#34;&gt;几何学视角：&amp;ldquo;绝对公平&amp;quot;的完美圆球&#xA;&lt;/h4&gt;&lt;p&gt;高维空间里的&lt;strong&gt;标准正态分布（各向同性高斯分布）&lt;/strong&gt;，就像是一个边缘模糊、绝对对称的&amp;quot;完美能量球&amp;rdquo;。&lt;/p&gt;&#xA;&lt;p&gt;无论你在球里的哪个位置，无论你想朝着哪个方向做物理推演，&lt;strong&gt;空间的几何性质都是绝对一致的&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;h4 id=&#34;工程学视角算力地狱里的救命稻草&#34;&gt;工程学视角：&amp;ldquo;算力地狱&amp;quot;里的救命稻草&#xA;&lt;/h4&gt;&lt;p&gt;正态分布是唯一能用极低算力写出漂亮 Loss 公式的分布！&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;Cramér-Wold 定理&lt;/strong&gt;：无论多少维的正态分布，只要你用手电筒从任意方向照过去，它的&amp;quot;一维影子&amp;quot;都必定是正态分布！&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;Epps-Pulley 检验公式&lt;/strong&gt;：判断一个一维影子是不是正态分布，有一个极其优雅的公式，完全平滑、完美可导！&lt;/p&gt;&#xA;&lt;h3 id=&#34;33-sigreg-如何防止作弊&#34;&gt;3.3 SIGReg 如何防止作弊？&#xA;&lt;/h3&gt;&lt;p&gt;有人可能会问：编码器和预测器能不能约定好一套正态分布的参数，然后随机生成分布内的点，假装自己学会了？&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;答案是：不行！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;因为 LeWorldModel 精心设计了一个**&amp;ldquo;死局（Double Bind）&amp;rdquo;**：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;如果编码器输出纯随机的高斯分布，SIGReg Loss 是完美的，但预测器完全无法预测（MSE 爆炸）&lt;/li&gt;&#xA;&lt;li&gt;如果编码器要满足 MSE（可预测性），特征必须遵循物理因果律&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;唯一的活路&lt;/strong&gt;：把真实物理世界的规律，一比一地&amp;quot;拓印&amp;quot;到那个高维的正态分布空间里&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;34-layernorm-vs-batchnorm&#34;&gt;3.4 LayerNorm vs BatchNorm&#xA;&lt;/h3&gt;&lt;p&gt;这是一个极其硬核的架构细节。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;LayerNorm 是&amp;quot;猪队友&amp;rdquo;&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;LN 只管单个样本内部的和谐，不管不同样本之间的差异&lt;/li&gt;&#xA;&lt;li&gt;全班128个学生交出一模一样的答卷，LN 会觉得&amp;quot;完美&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;LN 在数学上把所有特征向量强行投影到一个&amp;quot;高维的空心球面&amp;quot;上，与 SIGReg 要求的&amp;quot;实心能量球&amp;quot;冲突&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;BatchNorm 是&amp;quot;神助攻&amp;quot;&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;BN 的工作逻辑和 SIGReg 在同一个频道上&lt;/li&gt;&#xA;&lt;li&gt;BN 在物理架构上强制所有特征在 Batch 内必须散开（方差为1）&lt;/li&gt;&#xA;&lt;li&gt;BN 负责把数据&amp;quot;撑开&amp;quot;，SIGReg 只需要负责&amp;quot;精雕细琢&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;为什么前面还要垫一个&amp;quot;单层 MLP&amp;quot;？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;因为 ViT 的内部结构极其依赖 LN。如果直接把 LN 换成 BN，ViT 内部的注意力机制会崩盘。&lt;/p&gt;&#xA;&lt;p&gt;MLP 作为&amp;quot;缓冲带&amp;quot;，把 ViT 内部的&amp;quot;LN 格式信号&amp;quot;翻译、转换到一个全新的特征空间里，摆脱&amp;quot;空心球壳&amp;quot;的死板几何束缚。&lt;/p&gt;&#xA;&lt;h3 id=&#34;35-潜空间规划&#34;&gt;3.5 潜空间规划&#xA;&lt;/h3&gt;&lt;p&gt;怎么用学好的模型来做事？LeWM 采用了 &lt;strong&gt;模型预测控制 (MPC)&lt;/strong&gt; 搭配 &lt;strong&gt;交叉熵方法 (CEM)&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;p&gt;在脑海中想象未来：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;给一个初始画面和目标画面&lt;/li&gt;&#xA;&lt;li&gt;CEM 撒出 300 条随机动作序列&lt;/li&gt;&#xA;&lt;li&gt;在潜空间里往后推演 5 步（由于跳帧设置=5，相当于环境里的 25 步）&lt;/li&gt;&#xA;&lt;li&gt;挑出最接近目标特征的动作&lt;/li&gt;&#xA;&lt;li&gt;执行一小段后，根据新画面重新规划&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;四规划性能表现赛道狂飙稳如老狗&#34;&gt;四、规划性能表现：赛道狂飙，稳如老狗&#xA;&lt;/h2&gt;&lt;p&gt;作者在四大测试场对 LeWM 进行了全面&amp;quot;拷问&amp;quot;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;二维迷宫 TwoRoom&lt;/li&gt;&#xA;&lt;li&gt;推方块 PushT&lt;/li&gt;&#xA;&lt;li&gt;三维机械臂抓取 OGBench-Cube&lt;/li&gt;&#xA;&lt;li&gt;二维机械臂 Reacher&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;41-硬核战绩&#34;&gt;4.1 硬核战绩&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;在难度极高的 &lt;strong&gt;PushT&lt;/strong&gt; 任务上，LeWM 的成功率直接比 PLDM &lt;strong&gt;高出18%&lt;/strong&gt;！&lt;/li&gt;&#xA;&lt;li&gt;纯像素输入的 LeWM，面对带着庞大预训练知识的 DINO-WM，竟然实现了反超！&lt;/li&gt;&#xA;&lt;li&gt;规划速度实现了 &lt;strong&gt;48倍的飙升&lt;/strong&gt;！完整规划不到1秒就能算完&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;42-稳如泰山的训练&#34;&gt;4.2 稳如泰山的训练&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;超参地狱的终结&lt;/strong&gt;：只有一个有效超参数——SIGReg权重 $\lambda$。实验证明不管设多少（0.01~0.2），成功率都在80%以上。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;曲线丝滑&lt;/strong&gt;：相比于 PLDM 那像过山车一样上下剧烈震荡的7项 Loss 曲线，LeWM 的2项 Loss 曲线平滑且单调下降。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;架构不敏感&lt;/strong&gt;：即使把 ViT 编码器换成古老的 ResNet-18，LeWM 依然能打。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;五量化物理理解不仅会看还懂点物理&#34;&gt;五、量化物理理解：不仅会看，还懂点物理&#xA;&lt;/h2&gt;&lt;p&gt;LeWM 在脑海里默默构建了物理法则！&lt;/p&gt;&#xA;&lt;h3 id=&#34;51-读心术特征探针-probing&#34;&gt;5.1 读心术（特征探针 Probing）&#xA;&lt;/h3&gt;&lt;p&gt;用线性探测器去解析它的特征向量，发现里面清晰地编码了物体的位置、机械臂的角度等真实物理坐标（MSE误差极低），碾压了 PLDM。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;线性探测器是怎么做的？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;冻结编码器&lt;/strong&gt;：把训练好的编码器请到审讯室，冻结所有参数&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;请一位&amp;quot;头脑极其简单&amp;quot;的警察&lt;/strong&gt;：线性探测器就是一个最基础的线性回归方程，没有任何非线性激活函数，也没有多层网络结构&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;对账与判决&lt;/strong&gt;：如果只会做加减乘除的警察能精准报出物理坐标，说明编码器已经把物理世界高度整理过了&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h3 id=&#34;52-脑内画面重现decoder&#34;&gt;5.2 脑内画面重现（Decoder）&#xA;&lt;/h3&gt;&lt;p&gt;如果在训练时外挂一个解码器（不参与反向传播），发现仅仅依靠被极度压缩的特征向量，就能完美重建出原始的像素画面！&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;解码器是预先训练好的吗？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;不是！&lt;/strong&gt; 这个解码器必须是&amp;quot;零基础的小白&amp;quot;（随机初始化的全新网络）。&lt;/p&gt;&#xA;&lt;p&gt;为什么？如果用预训练好的强大解码器，它会利用自己的常识疯狂&amp;quot;脑补&amp;quot;，硬生生画出一张极度逼真的图，但科学家无法判断：这完美画面是因为特征提取得好，还是因为解码器太会脑补？&lt;/p&gt;&#xA;&lt;p&gt;为了防止作弊，科学家采取了极其严苛的手段：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;找一个随机初始化的笨蛋解码器&lt;/strong&gt;：脑子里一片空白&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;装上一面&amp;quot;单向玻璃&amp;quot;（Stop-Gradient）&lt;/strong&gt;：特征向量可以从编码器传给解码器；但当解码器画错像素产生 Loss 时，惩罚不准传回编码器&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;解码器会不会学会&amp;quot;脑补&amp;quot;？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;不会！因为有四道防线：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;MSE Loss 的&amp;quot;死板对账&amp;quot;&lt;/strong&gt;：脑补逼真 ≠ 脑补正确，像素级核对必须精准&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;故意&amp;quot;饿死&amp;quot;解码器的脑容量&lt;/strong&gt;：解码器设计得极其简陋，没有容量记忆环境常识&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;&amp;ldquo;平行宇宙&amp;quot;的突击考试&lt;/strong&gt;：用从未见过的新测试集验证，解码器依然完美重构&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;证据链闭环&lt;/strong&gt;：线性探测器也能从特征中提取精确物理坐标&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h3 id=&#34;53-涌现的时间拉直temporal-straightening&#34;&gt;5.3 涌现的&amp;quot;时间拉直&amp;rdquo;（Temporal Straightening）&#xA;&lt;/h3&gt;&lt;p&gt;超炫酷的现象！随着训练进行，模型在潜空间里预测的轨迹竟然自动变成了一条&amp;quot;直线&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;LeWM 根本没加任何平滑约束，却比特意加了平滑 Loss 的 PLDM 还要&amp;quot;直&amp;quot;。这说明模型自发学会了最优雅的动态表征！&lt;/p&gt;&#xA;&lt;h3 id=&#34;54-吓一跳测试期望违背-voe&#34;&gt;5.4 &amp;ldquo;吓一跳&amp;quot;测试（期望违背 VoE）&#xA;&lt;/h3&gt;&lt;p&gt;借鉴心理学测试婴儿认知的方法，给模型看三种视频：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;正常的&lt;/li&gt;&#xA;&lt;li&gt;物体突然变色的（视觉扰动）&lt;/li&gt;&#xA;&lt;li&gt;物体瞬间瞬移的（物理扰动）&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;结果显示：面对变色，AI内心毫无波澜；但面对违背牛顿定律的&amp;quot;物体瞬移&amp;rdquo;，AI的预测误差瞬间暴增（吓了一大跳）！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;六结论与局限性&#34;&gt;六、结论与局限性&#xA;&lt;/h2&gt;&lt;h3 id=&#34;61-总结&#34;&gt;6.1 总结&#xA;&lt;/h3&gt;&lt;p&gt;LeWM 是一套可扩展、有数学原理支撑、极具解释性的世界模型新范式。&lt;/p&gt;&#xA;&lt;h3 id=&#34;62-阿喀琉斯之踵&#34;&gt;6.2 阿喀琉斯之踵&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;1. 短视&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;目前规划视野还比较短（几十步），未来需要层次化的世界模型来解决长视野规划。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;2. 数据饥渴与特征维度局限&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;如果环境太简单（比如极简的 TwoRoom 二维迷宫），环境本身内在维度太低，强行让它填满高维高斯分布会比较别扭，导致此时表现稍逊于 PLDM。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;3. 依赖动作标签&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;目前必须输入标注好的 Action 才能训，未来如果能引入逆动力学（Inverse Dynamics）自学 Action 就完美了。&lt;/p&gt;&#xA;&lt;h3 id=&#34;63-附录中的魔鬼细节&#34;&gt;6.3 附录中的&amp;quot;魔鬼细节&amp;quot;&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;配置项&lt;/th&gt;&#xA;          &lt;th&gt;推荐值&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Frame-skip&lt;/td&gt;&#xA;          &lt;td&gt;5&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;输入帧数&lt;/td&gt;&#xA;          &lt;td&gt;4个画面帧 + 4个动作块&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Batch Size&lt;/td&gt;&#xA;          &lt;td&gt;128&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;CEM规划器方差初始化&lt;/td&gt;&#xA;          &lt;td&gt;1&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;每次迭代撒轨迹数&lt;/td&gt;&#xA;          &lt;td&gt;300&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;精英数量&lt;/td&gt;&#xA;          &lt;td&gt;Top 30&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;PushT优化次数&lt;/td&gt;&#xA;          &lt;td&gt;30&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;其他环境优化次数&lt;/td&gt;&#xA;          &lt;td&gt;10&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;预测器 Dropout&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;0.1&lt;/strong&gt;（甜点区）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;预测器架构&lt;/td&gt;&#xA;          &lt;td&gt;ViT-S（最完美）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;关键发现&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;Dropout 设为 0.0 或 0.5，成功率都会断崖式下跌（从96%掉到78%或66%）&lt;/li&gt;&#xA;&lt;li&gt;预测器用 ViT-Tiny 会欠拟合，用 ViT-Base 反而会轻微掉点&lt;/li&gt;&#xA;&lt;li&gt;把重构画面的 Loss 加回训练中，成功率从96%降到了86%&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;七深度问答那些让人拍案叫绝的细节&#34;&gt;七、深度问答：那些让人拍案叫绝的细节&#xA;&lt;/h2&gt;&lt;h3 id=&#34;71-cem-动作序列在不同环境中的形式&#34;&gt;7.1 CEM 动作序列在不同环境中的形式&#xA;&lt;/h3&gt;&lt;p&gt;在不同测试场中，CEM 撒出的300条动作序列，在数学形式和物理含义上&lt;strong&gt;完全不同&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;环境&lt;/th&gt;&#xA;          &lt;th&gt;动作维度 D&lt;/th&gt;&#xA;          &lt;th&gt;物理含义&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;TwoRoom&lt;/td&gt;&#xA;          &lt;td&gt;2&lt;/td&gt;&#xA;          &lt;td&gt;二维位移/速度向量&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;PushT&lt;/td&gt;&#xA;          &lt;td&gt;2&lt;/td&gt;&#xA;          &lt;td&gt;推杆在二维桌面上的目标坐标 (X, Y)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Reacher&lt;/td&gt;&#xA;          &lt;td&gt;2&lt;/td&gt;&#xA;          &lt;td&gt;两个马达的关节扭矩（Torque）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;OGBench-Cube&lt;/td&gt;&#xA;          &lt;td&gt;4或7&lt;/td&gt;&#xA;          &lt;td&gt;三维末端位移 + 夹爪开合，或7个关节角度&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;CEM 生成的矩阵形状是 &lt;code&gt;[300, 5, D]&lt;/code&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;300：300种可能的未来分支&lt;/li&gt;&#xA;&lt;li&gt;5：往未来推演的5步&lt;/li&gt;&#xA;&lt;li&gt;D：动作维度&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;预测器怎么消化这些不同形式的物理参数？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;通过 &lt;strong&gt;AdaLN&lt;/strong&gt; 和 &lt;strong&gt;动作编码器&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;统一翻译&lt;/strong&gt;：一个单层 MLP 把动作参数映射成高维的&amp;quot;动作特征向量&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;灵魂注入&lt;/strong&gt;：AdaLN 把动作特征融合到图像特征里&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;&amp;ldquo;无感&amp;quot;推演&lt;/strong&gt;：预测器只处理抽象特征，不知道具体是什么动作&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h3 id=&#34;72-cem-是怎么大海捞针的&#34;&gt;7.2 CEM 是怎么&amp;quot;大海捞针&amp;quot;的？&#xA;&lt;/h3&gt;&lt;p&gt;短短1秒钟内的进化过程：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;第1轮（纯蒙）&lt;/strong&gt;：CEM 纯随机生成300条乱七八糟的动作指令&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;预测器推演&lt;/strong&gt;：把这300条指令全部在脑海里&amp;quot;播放&amp;quot;一遍&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;优胜劣汰&lt;/strong&gt;：对比目标特征，只有Top 30勉强靠近目标&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;提炼规律&lt;/strong&gt;：分析精英动作，生成新的正态分布&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;第2轮（精准撒网）&lt;/strong&gt;：围绕规律再次撒出300条动作&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;在 PushT 环境中，这个过程会狂刷30次！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;总结&#34;&gt;总结&#xA;&lt;/h2&gt;&lt;p&gt;整篇论文看下来，LeWorldModel 宛如一把精钢铸就的利剑，不仅斩断了过去世界模型复杂的&amp;quot;正则化乱麻&amp;rdquo;，更让普通人在单张显卡上探索物理世界规律成为了可能！&lt;/p&gt;&#xA;&lt;p&gt;它的核心贡献可以概括为：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;用两个 Loss、一个超参数，实现了端到端、稳定、高效的世界模型训练——同时掌握了不可思议的物理直觉！&lt;/strong&gt;&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;p&gt;#论文 #世界模型 #JEPA&lt;/p&gt;&#xA;</description>
        </item></channel>
</rss>
