<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>视频生成 on 朝花夕拾</title>
        <link>https://example.org/tags/%E8%A7%86%E9%A2%91%E7%94%9F%E6%88%90/</link>
        <description>Recent content in 视频生成 on 朝花夕拾</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <lastBuildDate>Tue, 17 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://example.org/tags/%E8%A7%86%E9%A2%91%E7%94%9F%E6%88%90/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>Epona: Autoregressive Diffusion World Model for End-to-End Autonomous Driving</title>
            <link>https://example.org/post/robotics/e2e/epona/</link>
            <pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/e2e/epona/</guid>
            <description>&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;端到端自动驾驶的视频生成与轨迹规划&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-一句话概括&#34;&gt;🎯 一句话概括&#xA;&lt;/h2&gt;&lt;p&gt;Epona 是一个&lt;strong&gt;自回归扩散世界模型&lt;/strong&gt;，它像拍连续剧一样根据历史画面预测未来，同时用扩散模型保证每一帧画质高清——不仅能&amp;quot;脑补&amp;quot;出未来 2 分钟的驾驶场景，还能学会&amp;quot;红灯停、避让行人&amp;quot;等物理规则。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-核心设计理念&#34;&gt;🧠 核心设计理念&#xA;&lt;/h2&gt;&lt;h3 id=&#34;为什么需要-epona&#34;&gt;为什么需要 Epona？&#xA;&lt;/h3&gt;&lt;p&gt;在自动驾驶领域，存在两类模型各有优劣：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;模型类型&lt;/th&gt;&#xA;          &lt;th&gt;优势&lt;/th&gt;&#xA;          &lt;th&gt;劣势&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;扩散模型&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;画质逼真、细节丰富&lt;/td&gt;&#xA;          &lt;td&gt;短视，难以生成长视频，不懂数理逻辑&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;自回归 Transformer&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;懂因果、能长程推理&lt;/td&gt;&#xA;          &lt;td&gt;图像压缩粗糙，画质模糊&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;Epona 的思路&lt;/strong&gt;：为什么不能兼得？于是采用 &lt;strong&gt;&amp;ldquo;自回归 + 扩散&amp;rdquo;&lt;/strong&gt; 混合架构：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;像&lt;strong&gt;写连续剧&lt;/strong&gt;一样（自回归）根据历史预测未来&lt;/li&gt;&#xA;&lt;li&gt;同时用&lt;strong&gt;扩散模型&lt;/strong&gt;保证每一帧画质高清&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;三大核心创新&#34;&gt;三大核心创新&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;分工明确&lt;/strong&gt;：时空处理分离，效率大幅提升&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;异步生成&lt;/strong&gt;：轨迹规划和视频生成分开进行&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;连锁前向训练&lt;/strong&gt;：解决误差累积问题，能生成长达 2 分钟的视频&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-架构详解&#34;&gt;🏗️ 架构详解&#xA;&lt;/h2&gt;&lt;p&gt;Epona 由三个核心模块组成，像一个精密配合的团队：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;┌─────────────────────────────────────────────────────────────┐&#xA;│                        Epona 架构                            │&#xA;├─────────────────────────────────────────────────────────────┤&#xA;│                                                             │&#xA;│   历史 T 帧 ──┐                                              │&#xA;│               │    ┌─────────┐                              │&#xA;│   历史动作 ────┼───►│   MST   │──► 特征 F                     │&#xA;│               │    │(记忆大师)│       │                      │&#xA;│               ┘    └─────────┘      │                       │&#xA;│                                     │                       │&#xA;│                          ┌──────────┴──────────┐            │&#xA;│                          ▼                     ▼            │&#xA;│                   ┌──────────┐          ┌──────────┐        │&#xA;│                   │ TrajDiT  │          │  VisDiT  │        │&#xA;│                   │(领航员)   │          │ (画师)    │        │&#xA;│                   └────┬─────┘          └────┬─────┘        │&#xA;│                        │                     │              │&#xA;│                        ▼                     ▼              │&#xA;│                   未来轨迹              下一帧画面             │&#xA;│                                                             │&#xA;└─────────────────────────────────────────────────────────────┘&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-21-mst-multimodal-spatiotemporal-transformer&#34;&gt;📚 2.1 MST (Multimodal Spatiotemporal Transformer)&#xA;&lt;/h2&gt;&lt;h3 id=&#34;-角色超级记忆大师&#34;&gt;🎭 角色：超级记忆大师&#xA;&lt;/h3&gt;&lt;p&gt;MST 的任务是将过去复杂的视频画面和驾驶操作，&lt;strong&gt;压缩&lt;/strong&gt;成一个精炼的特征向量。就像一个记忆力超群的人，看一眼就能记住所有关键信息。&lt;/p&gt;&#xA;&lt;h3 id=&#34;输入预处理&#34;&gt;输入预处理&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;原始输入：&#xA;├── 视觉：过去 T 帧 (如 10 帧) 图像，分辨率 512×1024&#xA;└── 动作：每帧对应的历史轨迹（速度、方向盘转角等）&#xA;&#xA;DCAE 压缩处理：&#xA;├── 图像压缩 16 倍：512×1024 → 32×64 特征图&#xA;├── 铺平成 Token：32×64 = 2048 个视觉 Token (记作 L)&#xA;└── 动作投影：动作向量映射到同维度 Token&#xA;&#xA;最终输入张量 E：&#xA;├── 形状：[Batch, T, (L+3), D]&#xA;├── L+3 = 2048 个视觉 Token + 3 个动作 Token&#xA;└── D = 特征维度&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;-时空分离处理--先看时间再看空间&#34;&gt;🔄 时空分离处理 —— &amp;ldquo;先看时间，再看空间&amp;rdquo;&#xA;&lt;/h3&gt;&lt;p&gt;MST 不是同时处理时空，而是&lt;strong&gt;交替进行&lt;/strong&gt;，像这样：&lt;/p&gt;&#xA;&lt;h4 id=&#34;步骤-a时间层--串联历史&#34;&gt;步骤 A：时间层 —— &amp;ldquo;串联历史&amp;rdquo;&#xA;&lt;/h4&gt;&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：让图像中&lt;strong&gt;同一个坐标位置&lt;/strong&gt;的像素点，去查阅自己在过去 $T$ 帧的变化。&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 输入变换&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;原始形状&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;：&lt;/span&gt;[B, T, S, D]    &lt;span style=&#34;color:#75715e&#34;&gt;# S 是空间 Token 数 L+3&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;变换后&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;：&lt;/span&gt;[(B &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; S), T, D]   &lt;span style=&#34;color:#75715e&#34;&gt;# 把空间维度和 Batch 绑在一起&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 物理含义&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;现在模型眼里的&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;一个样本&amp;#34;&lt;/span&gt;&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;，&lt;/span&gt;不再是整段视频&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;，&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;而是视频中某个特定位置的像素点随时间的变化序列&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 关键技术：Causal Mask（因果遮罩）&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;第 &lt;span style=&#34;color:#ae81ff&#34;&gt;5&lt;/span&gt; 帧的像素只能看第 &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;3&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;4&lt;/span&gt; 帧的自己&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;，&lt;/span&gt;不能偷看第 &lt;span style=&#34;color:#ae81ff&#34;&gt;6&lt;/span&gt; 帧&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h4 id=&#34;步骤-b空间层--理解当下&#34;&gt;步骤 B：空间层 —— &amp;ldquo;理解当下&amp;rdquo;&#xA;&lt;/h4&gt;&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：把每一帧看作独立的图片，让图像里的车、路、树木以及动作指令 Token 进行&lt;strong&gt;全注意力交互&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 输入变换&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;变换后&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;：&lt;/span&gt;[(B &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; T), S, D]   &lt;span style=&#34;color:#75715e&#34;&gt;# 把时间维度和 Batch 绑在一起&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 多模态融合&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;视觉信息和动作意图在此处深度融合&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;-3d-位置编码-embednd&#34;&gt;📍 3D 位置编码 (EmbedND)&#xA;&lt;/h3&gt;&lt;p&gt;Epona 使用&lt;strong&gt;分块对角旋转位置编码 (RoPE)&lt;/strong&gt; 来编码时空位置：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;EmbedND&lt;/span&gt;(dim, theta, axes_dim):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;&amp;#34;&amp;#34;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;    为视频中的每个像素点生成 3D 位置嵌入&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;    维度分配示例：[Time: 2维, Height: 2维, Width: 2维]&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;    &amp;#34;&amp;#34;&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;for&lt;/span&gt; i, (pos, dim) &lt;span style=&#34;color:#f92672&#34;&gt;in&lt;/span&gt; enumerate(zip(axes, axes_dim)):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        out&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;append(rope(pos, dim, theta))&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;cat(out, dim&lt;span style=&#34;color:#f92672&#34;&gt;=-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;形象例子&lt;/strong&gt;：假设要给坐标 &lt;code&gt;(t=5, h=10, w=20)&lt;/code&gt; 的像素编码：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;循环 1 (Time):   Embed(5)  → [0.1, 0.9]&#xA;循环 2 (Height): Embed(10) → [0.5, 0.5]&#xA;循环 3 (Width):  Embed(20) → [0.8, 0.2]&#xA;&#xA;最终拼接：[0.1, 0.9, 0.5, 0.5, 0.8, 0.2]&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;这样，最终向量同时包含时间、高度和宽度信息，互不干扰。&lt;/p&gt;&#xA;&lt;h3 id=&#34;输出&#34;&gt;输出&#xA;&lt;/h3&gt;&lt;p&gt;经过 $N$ 层循环后，提取序列中&lt;strong&gt;最后一帧&lt;/strong&gt;的特征 $\mathbf{F}$。这是包含丰富历史语义和当前状态的高维特征向量，作为后续两个模块的基石。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-22-trajdit-trajectory-planning-dit&#34;&gt;🚗 2.2 TrajDiT (Trajectory Planning DiT)&#xA;&lt;/h2&gt;&lt;h3 id=&#34;-角色决策中枢--老司机&#34;&gt;🎭 角色：决策中枢 &amp;amp; 老司机&#xA;&lt;/h3&gt;&lt;p&gt;拿到 MST 给的局面 $\mathbf{F}$，在不生成图像的情况下，&lt;strong&gt;极速规划&lt;/strong&gt;出未来 3 秒怎么开。&lt;/p&gt;&#xA;&lt;h3 id=&#34;架构双流融合&#34;&gt;架构：双流融合&#xA;&lt;/h3&gt;&lt;p&gt;这是一个专门&amp;quot;画线&amp;quot;（轨迹）的轻量级扩散模型。&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;输入准备：&#xA;├── 条件 (Cond)：来自 MST 的特征 F&#xA;└── 噪声 (Input)：随机高斯噪声 x_T（代表未来轨迹的草稿）&#xA;&#xA;双流阶段 (Dual-Stream Phase)：&#xA;├── 环境流：处理特征 F&#xA;├── 轨迹流：处理噪声轨迹&#xA;└── 通过 Cross-Attention 交换信息&#xA;&#xA;单流阶段 (Single-Stream Phase)：&#xA;├── 两条流拼接，深度混合推理&#xA;└── 确保轨迹与环境严丝合缝&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;-modulation-调制机制&#34;&gt;🔧 Modulation 调制机制&#xA;&lt;/h3&gt;&lt;p&gt;Modulation 是将时间嵌入转化为神经网络控制参数的关键组件：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;class&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;Modulation&lt;/span&gt;:&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;__init__&lt;/span&gt;(self, dim, double):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;multiplier &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;6&lt;/span&gt; &lt;span style=&#34;color:#66d9ef&#34;&gt;if&lt;/span&gt; double &lt;span style=&#34;color:#66d9ef&#34;&gt;else&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;3&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;lin &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; nn&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;Linear(dim, dim &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;multiplier)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;forward&lt;/span&gt;(self, vec):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        out &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;lin(vec&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;silu())&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;chunk(self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;multiplier, dim&lt;span style=&#34;color:#f92672&#34;&gt;=-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; out  &lt;span style=&#34;color:#75715e&#34;&gt;# 返回 (shift, scale, gate) 组&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;参数含义&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;Shift (β)&lt;/strong&gt;：偏移量，平移特征&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Scale (γ)&lt;/strong&gt;：缩放因子，拉伸/压缩特征&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Gate (α)&lt;/strong&gt;：门控值，控制残差连接强度&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-doublestreamblock-vs-singlestreamblock&#34;&gt;📊 DoubleStreamBlock vs SingleStreamBlock&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;特性&lt;/th&gt;&#xA;          &lt;th&gt;DoubleStreamBlock&lt;/th&gt;&#xA;          &lt;th&gt;SingleStreamBlock&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;数据流&lt;/td&gt;&#xA;          &lt;td&gt;两条独立流 (环境+轨迹)&lt;/td&gt;&#xA;          &lt;td&gt;一条混合流&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;调制参数&lt;/td&gt;&#xA;          &lt;td&gt;每条流 6 个，共 12 个&lt;/td&gt;&#xA;          &lt;td&gt;仅 3 个&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;结构&lt;/td&gt;&#xA;          &lt;td&gt;串行逻辑&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;并行逻辑&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;用途&lt;/td&gt;&#xA;          &lt;td&gt;TrajDiT 前期，保护环境特征&lt;/td&gt;&#xA;          &lt;td&gt;TrajDiT 后期/VisDiT，高效推理&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;在 DoubleStreamBlock 中：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 轨迹流&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;img_mod1 &lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;→&lt;/span&gt; 控制 Attention 的 AdaLN 和门控&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;img_mod2 &lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;→&lt;/span&gt; 控制 MLP 的 AdaLN 和门控&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 环境流&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;cond_mod1 &lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;→&lt;/span&gt; 控制 Attention 的 AdaLN 和门控&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;cond_mod2 &lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;→&lt;/span&gt; 控制 MLP 的 AdaLN 和门控&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-23-visdit-next-frame-prediction-dit&#34;&gt;🎨 2.3 VisDiT (Next-frame Prediction DiT)&#xA;&lt;/h2&gt;&lt;h3 id=&#34;-角色超写实画师&#34;&gt;🎭 角色：超写实画师&#xA;&lt;/h3&gt;&lt;p&gt;根据 MST 的特征和 TrajDiT 的轨迹规划，&lt;strong&gt;生成下一帧图像&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;输入准备&#34;&gt;输入准备&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;画布噪声：随机高斯噪声潜变量 Z_{T+1}&#xA;环境参考：MST 的特征 F&#xA;动作指令：TrajDiT 预测的轨迹（关键！）&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;核心机制动作调制&#34;&gt;核心机制：动作调制&#xA;&lt;/h3&gt;&lt;p&gt;轨迹向量转化为控制神经网络的旋钮参数：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 轨迹向量转化为缩放因子和偏移量&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;Input &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; Input &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; Scale(a) &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; Shift(a)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 通过 AdaLN 注入到 Transformer 每一层&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;&#xA;&lt;li&gt;如果规划是&amp;quot;左转&amp;quot;，调制会强迫网络关注左侧特征&lt;/li&gt;&#xA;&lt;li&gt;保证生成画面与规划动作一致&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-分辨率感知的时间偏移-get_schedule&#34;&gt;⏱️ 分辨率感知的时间偏移 (get_schedule)&#xA;&lt;/h3&gt;&lt;p&gt;这是一个**&amp;ldquo;智能时间管理大师&amp;rdquo;**：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;get_schedule&lt;/span&gt;(num_steps, image_seq_len, base_shift&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;0.5&lt;/span&gt;, max_shift&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1.15&lt;/span&gt;):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    timesteps &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;linspace(&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;, num_steps &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)  &lt;span style=&#34;color:#75715e&#34;&gt;# 基础进度条&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;if&lt;/span&gt; shift:&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        mu &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; get_lin_function(base_shift, max_shift)(image_seq_len)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        timesteps &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; time_shift(mu, &lt;span style=&#34;color:#ae81ff&#34;&gt;1.0&lt;/span&gt;, timesteps)   &lt;span style=&#34;color:#75715e&#34;&gt;# 偏移&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; (&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt; &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt; timesteps)&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;tolist()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;为什么需要它？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;痛点&lt;/strong&gt;：画大图比画小图更难，需要在&amp;quot;宏观构图&amp;quot;阶段多花点时间&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;解决方案&lt;/strong&gt;：根据序列长度自动调整时间表&#xA;&lt;ul&gt;&#xA;&lt;li&gt;序列长（大图）：在高噪声阶段停留更久，先定大轮廓&lt;/li&gt;&#xA;&lt;li&gt;序列短（小图/轨迹）：匀速搞定即可&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;在 Epona 中&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;TrajDiT&lt;/strong&gt;：序列短，时间表几乎不偏移&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;VisDiT&lt;/strong&gt;：序列长（2048 Token），显著偏移&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;时序感知解码&#34;&gt;时序感知解码&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;使用 Temporal-aware DCAE Decoder 解压潜变量&lt;/li&gt;&#xA;&lt;li&gt;参考上一帧的潜变量，消除频闪和抖动&lt;/li&gt;&#xA;&lt;li&gt;输出 512×1024 高清图像&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-关键技术细节&#34;&gt;🎓 关键技术细节&#xA;&lt;/h2&gt;&lt;h3 id=&#34;31-傅立叶嵌入-timestep_embedding&#34;&gt;3.1 傅立叶嵌入 (timestep_embedding)&#xA;&lt;/h3&gt;&lt;p&gt;将低维动作数据映射到高维空间，增强神经网络对细微变化的感知能力：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;timestep_embedding&lt;/span&gt;(t, dim, max_period&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;10000&lt;/span&gt;):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    t &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; time_factor &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; t&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    half &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; dim &lt;span style=&#34;color:#f92672&#34;&gt;//&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    freqs &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; exp(&lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;log(&lt;span style=&#34;color:#ae81ff&#34;&gt;10000&lt;/span&gt;) &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; arange(&lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;, half) &lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt; half)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    args &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; t[:, &lt;span style=&#34;color:#66d9ef&#34;&gt;None&lt;/span&gt;] &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; freqs[&lt;span style=&#34;color:#66d9ef&#34;&gt;None&lt;/span&gt;]&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    embedding &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; cat([cos(args), sin(args)], dim&lt;span style=&#34;color:#f92672&#34;&gt;=-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; embedding&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;原理&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;原始输入：低维向量&lt;/li&gt;&#xA;&lt;li&gt;输出：高维特征，包含从低频到高频的丰富信号&lt;/li&gt;&#xA;&lt;li&gt;效果：神经网络能&amp;quot;看到&amp;quot;微小变化&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;32-rope-vs-正弦编码&#34;&gt;3.2 RoPE vs 正弦编码&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;特性&lt;/th&gt;&#xA;          &lt;th&gt;正弦编码&lt;/th&gt;&#xA;          &lt;th&gt;RoPE&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;相对位置感知&lt;/td&gt;&#xA;          &lt;td&gt;弱&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;强&lt;/strong&gt;（点积只取决于相对距离）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;长度外推性&lt;/td&gt;&#xA;          &lt;td&gt;差&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;好&lt;/strong&gt;（周期性，不死记硬背）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;维度解耦&lt;/td&gt;&#xA;          &lt;td&gt;难&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;优雅&lt;/strong&gt;（分块对角矩阵）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;33-连锁前向训练-chain-of-forward-training&#34;&gt;3.3 连锁前向训练 (Chain-of-Forward Training)&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;痛点&lt;/strong&gt;：自回归模式的误差累积——第一帧歪一点，第 100 帧就崩了&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;解决方案&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;训练时偶尔用模型自己生成的（有瑕疵的）预测结果作为下一轮输入&lt;/li&gt;&#xA;&lt;li&gt;模型被迫学会自我修正&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;效果&lt;/strong&gt;：能生成长达 &lt;strong&gt;2 分钟&lt;/strong&gt;不崩坏的视频&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-完整推理流程&#34;&gt;🔄 完整推理流程&#xA;&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;step_eval&lt;/span&gt;(latents, rel_pose, rel_yaw):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 1. MST 编码：压缩历史信息&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    stt_features, pose_emb &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;evaluate(latents, poses, yaws)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 2. TrajDiT 规划：决定未来怎么走&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    noise_traj &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; randn(&lt;span style=&#34;color:#f92672&#34;&gt;...&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    predict_traj &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; traj_dit&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sample(noise_traj, traj_ids, stt_features)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 3. 提取下一步动作&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    predict_pose, predict_yaw &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; predict_traj[:, &lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;:&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, &lt;span style=&#34;color:#f92672&#34;&gt;...&lt;/span&gt;]&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    pose_emb &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;get_pose_emb(predict_pose, predict_yaw)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 4. VisDiT 生成：脑补下一帧画面&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    noise &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; randn(&lt;span style=&#34;color:#f92672&#34;&gt;...&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    predict_latents &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; dit&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sample(noise, img_ids, stt_features, pose_emb)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; predict_traj, predict_latents&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-实验成果&#34;&gt;📊 实验成果&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;指标&lt;/th&gt;&#xA;          &lt;th&gt;结果&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;视频生成 FVD&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;7.4&lt;/strong&gt; (优于 Vista 7.9, 远超 DriveGAN 73.4)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;视频长度&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;2 分钟&lt;/strong&gt; 且逻辑连贯&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;物理理解&lt;/td&gt;&#xA;          &lt;td&gt;自学懂&amp;quot;红灯停&amp;quot;、&amp;ldquo;避让行人&amp;quot;等规则&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;规划能力&lt;/td&gt;&#xA;          &lt;td&gt;NAVSIM 评测超过多个专门规划模型&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-总结&#34;&gt;💡 总结&#xA;&lt;/h2&gt;&lt;p&gt;Epona 通过 &lt;strong&gt;MST（压缩理解）&lt;/strong&gt;、&lt;strong&gt;TrajDiT（规划导航）&lt;/strong&gt; 和 &lt;strong&gt;VisDiT（受控绘图）&lt;/strong&gt; 三者的精密配合，实现了从&amp;quot;看懂路&amp;quot;到&amp;quot;决定怎么开&amp;quot;再到&amp;quot;脑补未来后果&amp;quot;的完整闭环。&lt;/p&gt;&#xA;&lt;p&gt;它不仅是一个视频生成器，更是一个具备潜力的端到端自动驾驶大脑。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-相关链接&#34;&gt;📎 相关链接&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;论文：Epona: Autoregressive Diffusion World Model for Autonomous Driving&lt;/li&gt;&#xA;&lt;li&gt;相关工作：[[World4Drive - 无需感知标注的端到端世界模型]]、[[LAW - Latent World Model for E2E Driving]]&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;</description>
        </item></channel>
</rss>
