<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>轨迹规划 on 朝花夕拾</title>
        <link>https://example.org/tags/%E8%BD%A8%E8%BF%B9%E8%A7%84%E5%88%92/</link>
        <description>Recent content in 轨迹规划 on 朝花夕拾</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <lastBuildDate>Mon, 20 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://example.org/tags/%E8%BD%A8%E8%BF%B9%E8%A7%84%E5%88%92/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>SparseDriveV2: Scoring is All You Need for End-to-End Autonomous Driving</title>
            <link>https://example.org/post/robotics/e2e/sparse-drive-v2/</link>
            <pubDate>Mon, 20 Apr 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/e2e/sparse-drive-v2/</guid>
            <description>&lt;hr&gt;&#xA;&lt;h2 id=&#34;一这篇论文在讲什么&#34;&gt;一、这篇论文在讲什么？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心问题&#34;&gt;核心问题&#xA;&lt;/h3&gt;&lt;p&gt;端到端自动驾驶的多模态规划中，江湖上原本分为两派：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;派系&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;代表方法&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;优点&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;缺点&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;静态词表派&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;VADv2、Hydra-MDP、DriveSuprim&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;算力友好，简单高效&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;颗粒度太粗，动作空间覆盖不足&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;动态生成派&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;ipad（回归）、DiffusionDrive、GoalFlow（扩散/流匹配）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;极其精细，性能霸榜&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;模型臃肿，需要额外网络或疯狂迭代降噪&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;作者的灵魂拷问&#34;&gt;作者的灵魂拷问&#xA;&lt;/h3&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;动态生成真的是必需的吗？如果我把静态词表塞得密不透风，能不能打败它们？&lt;/strong&gt;&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h3 id=&#34;sparsedrivev2-的答案&#34;&gt;SparseDriveV2 的答案&#xA;&lt;/h3&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;静态词表只要足够密，打分机制就能一统天下！&lt;/strong&gt; 纯粹的打分范式（Purely Scoring-based），照样拿 SOTA！&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;&lt;strong&gt;形象的比喻&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;动态生成派&lt;/strong&gt;：像一个&amp;quot;现场作画&amp;quot;的艺术家，每次都要从头画一幅精细的作品，耗时耗力&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;SparseDriveV2&lt;/strong&gt;：像一个&amp;quot;菜单点菜&amp;quot;的食客，只要菜单够厚（词表够密），就能精准选中自己想要的那道菜&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;二暴力扩容实验用数据说话&#34;&gt;二、暴力扩容实验：用数据说话&#xA;&lt;/h2&gt;&lt;p&gt;为了验证&amp;quot;静态词表的潜力是无穷的&amp;quot;这个猜想，作者拿经典的 &lt;strong&gt;Hydra-MDP&lt;/strong&gt; 模型做了一场&amp;quot;大力出奇迹&amp;quot;实验：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;轨迹锚点数量&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;NAVSIM v2 EPDMS 得分&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;1024&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;85.02&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;2048&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;↑&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;4096&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;↑&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;8192&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;↑&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;16384&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;87.35&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;32768&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;💥 OOM（显存爆了）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;结论&lt;/strong&gt;：性能一路看涨，完全没有遇到瓶颈！限制它的只是你的算力和显存！&lt;/p&gt;&#xA;&lt;p&gt;于是，&lt;strong&gt;SparseDriveV2&lt;/strong&gt; 闪亮登场，它带来了两个改变游戏规则的核心创新，彻底打破了这个内存墙。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;三核心方法两大创新&#34;&gt;三、核心方法：两大创新&#xA;&lt;/h2&gt;&lt;h3 id=&#34;创新一可扩展的词汇表征--轨迹解剖术&#34;&gt;创新一：可扩展的词汇表征 —— 轨迹&amp;quot;解剖术&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;一条轨迹包含两个维度：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;空间几何&lt;/strong&gt;：你去哪儿？（路径）&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;时间演进&lt;/strong&gt;：你开多快？（速度）&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;既然完整的轨迹太多会导致内存爆炸，那就把它们&lt;strong&gt;拆了&lt;/strong&gt;！&lt;/p&gt;&#xA;&lt;h4 id=&#34;轨迹因式分解factorization&#34;&gt;轨迹因式分解（Factorization）&#xA;&lt;/h4&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;组成部分&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;定义&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;采样方式&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;几何路径 (Path, $p$)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;剥离时间，只看地上的车辙印&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;在最大空间长度 $S_{max}$ 内，每隔固定空间间隔 $\Delta s$ 采一个点&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;速度配置 (Velocity, $v$)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;剥离空间，只看迈速表&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;在总时间 $T$ 内，每隔固定时间 $\Delta t$ 记录一个平均速度&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h4 id=&#34;积木重组如何还原轨迹&#34;&gt;积木重组：如何还原轨迹？&#xA;&lt;/h4&gt;&lt;p&gt;当需要还原轨迹时，通过计算时间步 $t$ 时的累计行驶距离：&#xA;$$s_t = \sum v_k \Delta t$$&lt;/p&gt;&#xA;&lt;p&gt;然后在路径 $p$ 上进行距离插值，就能完美拼出完整的时空轨迹 $\tau$！&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;形象比喻&lt;/strong&gt;：就像玩乐高积木，你不需要为每种组合单独准备一个成品，只需要准备有限数量的&amp;quot;路径积木&amp;quot;和&amp;quot;速度积木&amp;quot;，然后按需组装即可！&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h3 id=&#34;创新二丝滑的打分策略--大浪淘沙&#34;&gt;创新二：丝滑的打分策略 —— 大浪淘沙&#xA;&lt;/h3&gt;&lt;p&gt;面对几十万条轨迹，一个一个打分肯定会死机，于是作者设计了**&amp;ldquo;漏斗式&amp;quot;打分法**：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;┌─────────────────────────────────────────────────────┐&#xA;│  第一层：场景编码 (Scene Encoding)                    │&#xA;│  - 用 ResNet 提取多视角图像特征                       │&#xA;│  - 编码自车状态                                       │&#xA;└─────────────────────────────────────────────────────┘&#xA;                        ↓&#xA;┌─────────────────────────────────────────────────────┐&#xA;│  第二层：粗粒度解耦打分 (Coarse Factorized Scoring)   │&#xA;│  - 路径打分：MLP + 场景特征 → Top-K_p 个路径          │&#xA;│  - 速度打分：MLP + 场景特征 → Top-K_v 个速度          │&#xA;│  - 筛掉离谱组合（高速上猛打方向盘、拥堵路段狂飙）       │&#xA;└─────────────────────────────────────────────────────┘&#xA;                        ↓&#xA;┌─────────────────────────────────────────────────────┐&#xA;│  第三层：细粒度轨迹打分 (Fine-Grained Scoring)        │&#xA;│  - 轨迹重条件化（Re-conditioning）                   │&#xA;│  - 可变形聚合（Deformable Aggregation）              │&#xA;│  - 高精度时空依赖推理                                 │&#xA;│  → 选出最终冠军轨迹                                   │&#xA;└─────────────────────────────────────────────────────┘&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h4 id=&#34;为什么需要轨迹重条件化&#34;&gt;为什么需要&amp;quot;轨迹重条件化&amp;rdquo;？&#xA;&lt;/h4&gt;&lt;p&gt;高速行驶和急转弯之间存在&lt;strong&gt;物理冲突&lt;/strong&gt;，路径和速度不是绝对独立的！&lt;/p&gt;&#xA;&lt;p&gt;所以作者引入了&lt;strong&gt;轨迹重条件化（Trajectory Re-conditioning）&lt;/strong&gt;，用可变形聚合让组合后的轨迹特征再次与场景特征互动，进行高精度的时空依赖推理，最终给出精准打分！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;四词汇构建从数据到锚点&#34;&gt;四、词汇构建：从数据到锚点&#xA;&lt;/h2&gt;&lt;h3 id=&#34;两步聚类法&#34;&gt;两步聚类法&#xA;&lt;/h3&gt;&lt;p&gt;作者在海量人类驾驶数据中，用 &lt;strong&gt;K-Means 聚类算法&lt;/strong&gt; 分别聚类出：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;$N_p$ 个路径锚点&lt;/strong&gt;：代表人类常见的行驶路径形态&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;$N_v$ 个速度锚点&lt;/strong&gt;：代表人类常见的速度配置&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;奇迹时刻排列组合&#34;&gt;奇迹时刻：排列组合&#xA;&lt;/h3&gt;&lt;p&gt;把它们两两排列组合！&lt;/p&gt;&#xA;&lt;p&gt;$$\text{总轨迹数} = N_p \times N_v$$&lt;/p&gt;&#xA;&lt;p&gt;只需极小的内存，就能组合出包含&lt;strong&gt;几十万条候选轨迹的超高密度轨迹词表&lt;/strong&gt;！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;五训练与推理&#34;&gt;五、训练与推理&#xA;&lt;/h2&gt;&lt;h3 id=&#34;训练秘籍&#34;&gt;训练秘籍&#xA;&lt;/h3&gt;&lt;p&gt;损失函数：&lt;strong&gt;基于距离的软分类交叉熵损失（CE Loss）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;评估维度&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;距离度量&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;路径评估&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;点到点的平均平方距离（$L_2$ 距离）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;速度评估&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;绝对误差（$L_1$ 距离）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;细粒度轨迹评估&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;$L_2$ 距离&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;额外监督&lt;/strong&gt;：还请了一位&amp;quot;基于规则的老师（Rule-based Teacher）&amp;ldquo;来传授心法：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;安全性&lt;/li&gt;&#xA;&lt;li&gt;行驶进度&lt;/li&gt;&#xA;&lt;li&gt;舒适度&lt;/li&gt;&#xA;&lt;li&gt;交通规则遵守度&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;使用二元交叉熵（BCE）损失进行监督。&lt;/p&gt;&#xA;&lt;h3 id=&#34;推理流程&#34;&gt;推理流程&#xA;&lt;/h3&gt;&lt;p&gt;综合这些分数，选出&amp;quot;选秀冠军&amp;quot;直接控车！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;六实验设置赛场与装备&#34;&gt;六、实验设置：赛场与装备&#xA;&lt;/h2&gt;&lt;h3 id=&#34;主战场-navsim&#34;&gt;主战场 NAVSIM&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;配置&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;数值&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;路径词表 $N_p$&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;1024（1米间隔，最长50米）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;速度词表 $N_v$&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;256（0.5秒间隔，最长4秒）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;总候选轨迹&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;262,144 条&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;与前人对比&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;比常用的 8192 个锚点密 &lt;strong&gt;32 倍&lt;/strong&gt;！&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;推流过滤魔法&#34;&gt;推流过滤魔法&#xA;&lt;/h3&gt;&lt;p&gt;26万条轨迹怎么算？&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;层级&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;筛选策略&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;结果&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;第一层&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;Top 128 路径 + Top 64 速度&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;筛掉大部分离谱组合&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;第二层&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;Top 20 路径 + Top 20 速度（v2加速：Top 10 速度）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;形成高质量子集&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;最终&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;细粒度打分&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;只给 &lt;strong&gt;400 条&lt;/strong&gt;最靠谱的轨迹打分&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;轻量级装备&#34;&gt;轻量级装备&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;配置项&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;数值&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;骨干网络&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;ResNet-34（仅 21.8M 参数）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;输入分辨率&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;256 x 512&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;训练设备&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;8 张 NVIDIA L20 GPU&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;Batch Size&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;128&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;学习率&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;$1 \times 10^{-4}$&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;权重衰减&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;0&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;训练 Epochs&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;10&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;七主打战绩越级挑战&#34;&gt;七、主打战绩：越级挑战&#xA;&lt;/h2&gt;&lt;h3 id=&#34;navsim-v1-榜单&#34;&gt;NAVSIM v1 榜单&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;PDMS 终极高分：92.0&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;完爆其他打分方法和动态生成方法&lt;/li&gt;&#xA;&lt;li&gt;&amp;ldquo;以下犯上&amp;rdquo;：用袖珍的 ResNet-34 干翻了配备 V2-99 骨干网络（96.9M参数）的 GoalFlow 和 Hydra-MDP！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;navsim-v2-榜单&#34;&gt;NAVSIM v2 榜单&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;模型&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;EPDMS 分数&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;SparseDriveV2&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;90.1&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;DiffusionDriveV2（前任霸主）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;87.5&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;特别是在 &lt;strong&gt;EP（驾驶进度）&lt;/strong&gt; 指标上进步神速，证明了致密词表真的能覆盖更广的动作空间！&lt;/p&gt;&#xA;&lt;h3 id=&#34;bench2drive闭环测试&#34;&gt;Bench2Drive（闭环测试）&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;指标&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;分数&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;驾驶得分&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;89.15&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;成功率&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;70.00%&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;多能力得分&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;67.67%&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;全面碾压 TCP-traj 和 DriveAdapter 等一众强敌，展现了强大的复杂场景泛化能力。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;八消融实验抽丝剥茧&#34;&gt;八、消融实验：抽丝剥茧&#xA;&lt;/h2&gt;&lt;h3 id=&#34;词表密度实验&#34;&gt;词表密度实验&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;词表大小&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;EPDMS 分数&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;512 × 128&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;88.7&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&amp;hellip;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;↑&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;1024 × 256&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;90.1&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;结论&lt;/strong&gt;：词表越密，效果越好！&lt;/p&gt;&#xA;&lt;h3 id=&#34;关键组件实验&#34;&gt;关键组件实验&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;配置&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;效果&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;可变形聚合（DFA）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;✅ 提升&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;轨迹重条件化（Re-conditioning）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;✅ 提升&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;DFA + Re-conditioning&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;🏆 &lt;strong&gt;黄金搭档&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;九附录彩蛋bench2drive-闭环实验细节&#34;&gt;九、附录彩蛋：Bench2Drive 闭环实验细节&#xA;&lt;/h2&gt;&lt;h3 id=&#34;配置调整&#34;&gt;配置调整&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;配置项&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;数值&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;路径锚点最大长度&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;15 米&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;速度视野&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;3 秒&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;骨干网络&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;ResNet-50&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;训练设备&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;16 张 L20 显卡&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;输入&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;6 个摄像头（256 x 704）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;辅助任务&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;3D 目标检测、在线建图、运动预测&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;两段式训练&#34;&gt;两段式训练&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;第一阶段&lt;/strong&gt;：100 个 Epoch 的感知训练&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;第二阶段&lt;/strong&gt;：10 个 Epoch 的感知与规划联合训练（纯模仿学习，没用规则老师监督）&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;学习率分别为 $4 \times 10^{-4}$ 和 $3 \times 10^{-4}$。&lt;/p&gt;&#xA;&lt;h3 id=&#34;如何控车&#34;&gt;如何控车？&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;控制维度&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;策略&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;横向控制&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&amp;ldquo;随速可变目标距离&amp;rdquo;：$d = 0.5 \times \text{自车速度} + 2.5$，寻找路径上的预瞄点打方向盘&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;纵向控制&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;直接取速度配置里的第一个速度作为目标油门/刹车&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;定性结果展示&#34;&gt;定性结果展示&#xA;&lt;/h3&gt;&lt;p&gt;与基线相比（红线），SparseDriveV2 的轨迹（蓝线）：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;更贴近人类老司机（绿线）&lt;/li&gt;&#xA;&lt;li&gt;急转弯更平滑&lt;/li&gt;&#xA;&lt;li&gt;交通效率更高&lt;/li&gt;&#xA;&lt;li&gt;不会像呆子一样停在原地！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;坦诚的局限性&lt;/strong&gt;：在缺乏导航信息的情况下，系统偶尔也会&amp;quot;迷路&amp;rdquo;。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十个人思考与疑问&#34;&gt;十、个人思考与疑问&#xA;&lt;/h2&gt;&lt;h3 id=&#34;值得学习的亮点&#34;&gt;值得学习的亮点&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;极简哲学&lt;/strong&gt;：用最纯粹的打分思路，证明了&amp;quot;简单方法 + 大规模&amp;quot;可以打败&amp;quot;复杂方法 + 小规模&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;因式分解的智慧&lt;/strong&gt;：把轨迹拆成路径和速度两个维度，巧妙地绕过了显存爆炸的问题&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;漏斗式打分&lt;/strong&gt;：三层筛选机制既保证了计算效率，又没有牺牲最终精度&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h3 id=&#34;待探索的问题&#34;&gt;待探索的问题&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;词表密度的极限&lt;/strong&gt;：如果显存继续增大，词表密到什么程度会开始出现边际效应递减？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;路径和速度的耦合&lt;/strong&gt;：重条件化机制是否可以进一步优化，更好地捕捉两者的深层关联？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;与扩散模型的融合&lt;/strong&gt;：能否将 SparseDriveV2 的致密词表思想与扩散模型的生成能力结合起来？&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;参考链接&#34;&gt;参考链接&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;论文原文：https://arxiv.org/pdf/2603.29163&lt;/li&gt;&#xA;&lt;li&gt;相关工作：Hydra-MDP, VADv2, DiffusionDrive, GoalFlow&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;</description>
        </item><item>
            <title>DiffusionDriveV2: Truncated Diffusion Model for End-to-End Autonomous Driving</title>
            <link>https://example.org/post/robotics/e2e/diffusion-drive-v2/</link>
            <pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/e2e/diffusion-drive-v2/</guid>
            <description>&lt;hr&gt;&#xA;&lt;h2 id=&#34;一这篇论文在讲什么&#34;&gt;一、这篇论文在讲什么？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心问题&#34;&gt;核心问题&#xA;&lt;/h3&gt;&lt;p&gt;自动驾驶规划面临一个经典的两难困境：&lt;strong&gt;多样性 vs 质量&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;太保守&lt;/strong&gt;：只会&amp;quot;死记硬背&amp;quot;人类司机的走法，遇到新情况就傻眼&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;太发散&lt;/strong&gt;：想象力太丰富，画出各种会撞车的方案&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;diffusiondrivev2-的答案&#34;&gt;DiffusionDriveV2 的答案&#xA;&lt;/h3&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;用&lt;strong&gt;扩散模型&lt;/strong&gt;生成多条候选路径（多样性），再用&lt;strong&gt;强化学习&lt;/strong&gt;像严厉的教练一样筛选（质量）&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;形象的比喻：&lt;strong&gt;射箭比赛&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;以前的模型&lt;/strong&gt;：只盯着靶心射一箭，射偏了就没招了&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;DiffusionDriveV2&lt;/strong&gt;：一次性朝靶心周围射出一把箭（多样性），然后剪掉那些射到观众席的箭（质量约束），最后选出最准的一支&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;二核心方法三招绝学&#34;&gt;二、核心方法：三招绝学&#xA;&lt;/h2&gt;&lt;h3 id=&#34;第一招尺度自适应乘法噪声--让脑洞更顺滑&#34;&gt;第一招：尺度自适应乘法噪声 —— 让&amp;quot;脑洞&amp;quot;更顺滑&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;以前的做法（加法噪声）&lt;/strong&gt;：在路径上乱加干扰，结果路径变得像毛刺一样，车开起来会剧烈抖动&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;V2 的创新&lt;/strong&gt;：&#xA;$$\tau&amp;rsquo; = (1 + \epsilon_{mul})\tau$$&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;生动理解&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;近处（车头）：抖动小，因为车头方向需要精确控制&lt;/li&gt;&#xA;&lt;li&gt;远处（目标点）：抖动大，因为远处的路径本身就有不确定性&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这符合开车时&amp;quot;微调方向、远方模糊&amp;quot;的真实物理规律。&lt;/p&gt;&#xA;&lt;h3 id=&#34;第二招intra-anchor-grpo--窝里斗选优胜者&#34;&gt;第二招：Intra-Anchor GRPO —— 窝里斗，选优胜者&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;核心逻辑&lt;/strong&gt;：不比绝对高低，只比相对好坏&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;流程&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;针对同一个意图模板（比如&amp;quot;左转&amp;quot;），生成 8 条略有不同的路径&lt;/li&gt;&#xA;&lt;li&gt;裁判给这 8 条路径打分（是否撞车、是否开出马路、乘客稳不稳）&lt;/li&gt;&#xA;&lt;li&gt;计算&amp;quot;相对优势&amp;quot;：$A = \frac{\text{你的分数} - \text{平均分}}{\text{差异度}}$&lt;/li&gt;&#xA;&lt;li&gt;表现比平均好的，优势值为正；比平均差的，为负&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;为什么要&amp;quot;组内&amp;quot;比？&lt;/strong&gt;&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&amp;ldquo;左转&amp;quot;和&amp;quot;直行&amp;quot;的分数没有可比性。左转天生就比直行难。如果放在一起比，模型可能会为了拿高分而只学直行（&lt;strong&gt;模式崩溃&lt;/strong&gt;）。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;&lt;strong&gt;临摹字帖的比喻&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;p&gt;想象你在练书法，桌上有 64 张不同的字帖（Anchors）：一张是&amp;quot;一&amp;quot;字，一张是&amp;quot;之&amp;quot;字，一张是&amp;quot;永&amp;quot;字……&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;生成过程&lt;/strong&gt;：你拿一张&amp;quot;永&amp;quot;字的字帖，临摹了 8 遍。虽然每遍写得都有点细微差别（加了随机噪声），但因为你都是照着&amp;quot;永&amp;quot;字写的，这 8 张纸就被归为 &lt;strong&gt;&amp;ldquo;永字组&amp;rdquo;&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;组内 GRPO&lt;/strong&gt;：老师（Reward）过来看这 8 张&amp;quot;永&amp;quot;字，选出写得最漂亮的一张，给你奖励&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;拒绝跨组比较&lt;/strong&gt;：老师不会拿你写的&amp;quot;永&amp;quot;字去和隔壁桌写的&amp;quot;一&amp;quot;字比谁更漂亮，因为它们根本不是一个字，没法比&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;第三招inter-anchor-truncated-grpo--守底线撞车必罚&#34;&gt;第三招：Inter-Anchor Truncated GRPO —— 守底线，撞车必罚&#xA;&lt;/h3&gt;&lt;p&gt;虽然&amp;quot;窝里斗&amp;quot;能选出最好的左转方案，但如果所有的左转方案都会撞上护栏怎么办？&lt;/p&gt;&#xA;&lt;p&gt;这一招建立了&lt;strong&gt;全局底线&lt;/strong&gt;：不管你是哪种意图，只要撞车，通通判死刑（给极低的负分）。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;三mode-selector最后拍板的那个人&#34;&gt;三、Mode Selector：最后拍板的那个人&#xA;&lt;/h2&gt;&lt;p&gt;Intra-Anchor GRPO 确保了每个意图都能产生高质量的路径，但车只能选一条路走。谁来拍板？&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;Mode Selector&lt;/strong&gt; 就是那个&amp;quot;主裁判&amp;rdquo;，它的工作是：&lt;/p&gt;&#xA;&lt;h3 id=&#34;1-怎么选-综合多维度打分&#34;&gt;1. 怎么选？—— 综合多维度打分&#xA;&lt;/h3&gt;&lt;p&gt;结合三类关键信息进行&amp;quot;面试&amp;quot;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;路径本身&lt;/strong&gt;：弯曲程度如何？是否平滑？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;环境背景（BEV Features）&lt;/strong&gt;：通过交叉注意力，看看路附近有没有障碍物、马路牙子或红绿灯&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;任务目标&lt;/strong&gt;：导航让你左转，那左转组的路径天生得到更高的&amp;quot;意图分&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;2-技术实现&#34;&gt;2. 技术实现&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;MLP 打分&lt;/strong&gt;：经过特征融合后，通过 MLP 给每条路径打分&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;粗选+精选（Coarse-to-fine）&lt;/strong&gt;：先快看一眼，淘汰明显不行的；剩下的再仔细对比&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;3-训练标准&#34;&gt;3. 训练标准&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;BCE Loss（对错分）&lt;/strong&gt;：告诉它哪条路最接近人类司机的真值&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Margin-Rank Loss（排序分）&lt;/strong&gt;：不要求算出绝对好坏分，而是要求能排对顺序&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;如果没有这个 Mode Selector，光有 GRPO，车子可能会在&amp;quot;左转&amp;quot;和&amp;quot;直行&amp;quot;之间反复横跳，不知道该听谁的。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;四grpo-vs-dpo两种教导方式的对比&#34;&gt;四、GRPO vs DPO：两种&amp;quot;教导方式&amp;quot;的对比&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;特性&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DPO (直接偏好优化)&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;GRPO (组相对策略优化)&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;数据形式&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;成对数据（A &amp;gt; B）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;组数据（A, B, C, D&amp;hellip;）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;学习方式&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;离线学习&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;在线探索&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;核心逻辑&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;隐式奖励&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;显式奖励&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;比喻&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;看录像带学习&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;队内选拔赛&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;为什么论文选 GRPO 而不是 DPO？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;解决模式崩溃&lt;/strong&gt;：GRPO 通过组内归一化，强制保留每个意图的独特性&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;不需要 Critic 网络&lt;/strong&gt;：GRPO 利用&amp;quot;组平均分&amp;quot;代替了评论员，更简单、更省内存&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;动态进化&lt;/strong&gt;：在扩散模型复杂的生成空间里，GRPO 能让模型不断发现&amp;quot;原来这样走比刚才那样走更好&amp;quot;&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;五reward-函数交规考试式的打分&#34;&gt;五、Reward 函数：交规考试式的打分&#xA;&lt;/h2&gt;&lt;p&gt;GRPO 的 Reward 是&lt;strong&gt;人工定义的规则&lt;/strong&gt;计算的，不需要神经网络：&lt;/p&gt;&#xA;&lt;h3 id=&#34;具体规则&#34;&gt;具体规则&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;指标&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;含义&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;判定方式&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;NC (No Collision)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;碰撞惩罚&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;如果撞到车/行人/护栏，给巨大负分&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;DAC (Drivable Area Compliance)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;合规性&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;车轮是否压到马路牙子、是否逆行&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;EP (Ego Progress)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;进度得分&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;鼓励往前走，走得越远且符合限速，得分越高&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;C (Comfort)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;舒适度&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;路径平滑度、加速度和急转弯程度&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;TTC (Time To Collision)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;时间到碰撞&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;离前车的距离和相对速度是否安全&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;为什么不用神经网络打分&#34;&gt;为什么不用神经网络打分？&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;客观标准明确&lt;/strong&gt;：自动驾驶&amp;quot;撞没撞车&amp;quot;是物理事实，用规则算比用模型猜更准确、可靠&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;计算速度快&lt;/strong&gt;：规则计算只是几行物理公式，不需要运行庞大的神经网络&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;避开&amp;quot;幻觉&amp;quot;&lt;/strong&gt;：AI 模型可能产生幻觉觉得撞车也挺好，但物理规则是铁律&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;六技术演进三代扩散模型的对比&#34;&gt;六、技术演进：三代扩散模型的对比&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;特性&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionPlanner&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionDrive V1&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionDriveV2&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;起始状态&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;纯随机噪声（从 0 到 1 创造）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;预定义锚点（从半成品加工）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;锚点 + 尺度自适应噪声&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;去噪步数&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;多步（通常 10+ 步，慢）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;极少步（1-2 步，快）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;极少步（1-2 步，快）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;多样性保证&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;扩散模型天然属性（不稳定）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;64 个锚点强制分区（稳定）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;锚点分区 + GRPO 保护意图&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;学习范式&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;模仿学习 (IL)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;模仿学习 (IL)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;模仿学习 + 强化学习 (RL)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;存在痛点&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;算得慢、容易模式崩溃&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;容易产生会撞车的低质轨迹&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;系统复杂度高（训练难）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;生动理解三代的区别&#34;&gt;生动理解三代的区别&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;A. 关于&amp;quot;噪声&amp;quot;的艺术&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;DiffusionPlanner：在沙堆里找金子，范围太大，容易迷失&lt;/li&gt;&#xA;&lt;li&gt;DiffusionDrive：给沙堆围了 64 个小栅栏，让你在栅栏里找，效率高了，但栅栏里可能混进了石头&lt;/li&gt;&#xA;&lt;li&gt;DiffusionDriveV2：不仅有栅栏，还发明了&amp;quot;乘法噪声&amp;quot;，近处抖动小，远处抖动大，符合开车物理规律&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;B. 关于&amp;quot;教导方式&amp;quot;的变革&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;前两代：看人画画，只知道老师没往墙上撞，不知道为什么不撞&lt;/li&gt;&#xA;&lt;li&gt;V2 时代：引入&amp;quot;警察罚款&amp;quot;，如果你画到墙上，GRPO 教练会狠狠扣分&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;七架构拓扑从模糊到精确&#34;&gt;七、架构拓扑：从模糊到精确&#xA;&lt;/h2&gt;&lt;h3 id=&#34;diffusionplanner模糊的一段式monolithic&#34;&gt;DiffusionPlanner：模糊的一段式（Monolithic）&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;传感器数据 → 特征提取 → 扩散解码器&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;像一个&amp;quot;黑盒&amp;quot;，缺乏中间变量，人类很难理解它为什么要这么开。&lt;/p&gt;&#xA;&lt;h3 id=&#34;diffusiondrive-v1清晰的二段式perception-then-plan&#34;&gt;DiffusionDrive V1：清晰的二段式（Perception-then-Plan）&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;传感器 → BEV 特征图 + 目标检测 → 锚点扩散&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;有了明确的分工。先通过感知算法把世界变成&amp;quot;鸟瞰图&amp;quot;，规划器再在这张图上&amp;quot;画画&amp;quot;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;diffusiondrivev2精密的多级反馈二段式&#34;&gt;DiffusionDriveV2：精密的&amp;quot;多级反馈&amp;quot;二段式&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;传感器 → 高精度 BEV → 组内并行扩散（GRPO） → 模式选择&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;在 V1 基础上增加了&amp;quot;选优级&amp;quot;，形成了&amp;quot;感知 → 粗规划 → 精规划&amp;quot;的三级跳。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;八传感器融合如何构建-bev&#34;&gt;八、传感器融合：如何构建 BEV？&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;特性&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionPlanner&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionDrive V1&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionDriveV2&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;输入源&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;单视角或视角特征拼接&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;多相机环视（6 颗摄像头）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;相机 + LiDAR（多模态对齐）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;特征空间&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;图像空间&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;BEV 空间（LSS 方案）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;时序对齐 BEV（ResNet-34）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;融合方式&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;简单的特征拼接&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;空间投影&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;时空注意力融合&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;v2-的技术细节&#34;&gt;V2 的技术细节&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;骨干网络&lt;/strong&gt;：对齐的 ResNet-34，通过 LSS（Lift-Splat-Shoot）把 6 颗摄像头的图像&amp;quot;拍扁&amp;quot;到地面&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;时序对齐&lt;/strong&gt;：把过去 2 秒的 BEV 特征根据自车运动进行&amp;quot;空间平移&amp;quot;，让不同时间点的特征在同一个坐标系下重叠&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;九规划逻辑的信息流&#34;&gt;九、规划逻辑的信息流&#xA;&lt;/h2&gt;&lt;h3 id=&#34;三重交互机制&#34;&gt;三重交互机制&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;DCA（全景扫描）&lt;/strong&gt;：轨迹看 BEV 特征图，快速定位周围是大街还是小巷&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Agent-Wise Attention&lt;/strong&gt;：轨迹与 50 个障碍物 Query 进行 1 对 1 谈话，进行厘米级碰撞检测&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Map-Wise Attention&lt;/strong&gt;：轨迹与车道线向量对齐，确保遵守交通规则&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;生动比喻&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;BEV 交互是让你&amp;quot;别撞墙&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;Map 交互是让你&amp;quot;守交规&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十前后帧一致性如何拒绝精神分裂&#34;&gt;十、前后帧一致性：如何拒绝&amp;quot;精神分裂&amp;quot;？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;1-时序特征融合&#34;&gt;1. 时序特征融合&#xA;&lt;/h3&gt;&lt;p&gt;输入包含过去几帧（比如过去 2 秒）的图像或点云，通过 Temporal Attention 把过去的特征&amp;quot;存&amp;quot;在当前特征向量里。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;比喻：你开车时，脑子里其实存着前 2 秒路口的样子，你看的是一部&amp;quot;连贯的电影&amp;quot;。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h3 id=&#34;2-anchors-作为定海神针&#34;&gt;2. Anchors 作为&amp;quot;定海神针&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;64 个锚点（直行、左转等模板）是固定不变的。每一帧都从相同的锚点出发，起步点不乱跳。&lt;/p&gt;&#xA;&lt;h3 id=&#34;3-截断扩散的功劳&#34;&gt;3. 截断扩散的功劳&#xA;&lt;/h3&gt;&lt;p&gt;推理时只走 2 步（甚至 1 步），步数越少，生成过程就越接近确定性逻辑。&lt;/p&gt;&#xA;&lt;h3 id=&#34;4-grpo-带来的决断力&#34;&gt;4. GRPO 带来的&amp;quot;决断力&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;通过组内对比，极大拉开了&amp;quot;好路径&amp;quot;和&amp;quot;坏路径&amp;quot;的分数差距，让决策变得非常&amp;quot;笃定&amp;quot;。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十一实验结果&#34;&gt;十一、实验结果&#xA;&lt;/h2&gt;&lt;p&gt;在自动驾驶界最有名的考场 &lt;strong&gt;NAVSIM&lt;/strong&gt; 进行考试：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;PDMS 分数&lt;/strong&gt;：91.2，刷新世界纪录&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;骨干网络&lt;/strong&gt;：即使使用较小的 ResNet-34，表现也超过了拥有巨大骨干网络的模型&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十二关键技术实现multi-head-attention&#34;&gt;十二、关键技术实现：Multi-Head Attention&#xA;&lt;/h2&gt;&lt;h3 id=&#34;为什么要用多头&#34;&gt;为什么要用多头？&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;单头注意力&lt;/strong&gt;：像一把手电筒，盯着行人看，可能就没注意到红绿灯&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;多头注意力&lt;/strong&gt;：像一个专家顾问团&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;1号头（安全专家）：盯着障碍物和距离&lt;/li&gt;&#xA;&lt;li&gt;2号头（导航专家）：盯着车道线和路标&lt;/li&gt;&#xA;&lt;li&gt;3号头（舒适专家）：盯着路面平整度和坡度&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;核心代码逻辑&#34;&gt;核心代码逻辑&#xA;&lt;/h3&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 多头拆分：把 [batch, seq_len, d_model] 变成 [batch, num_heads, seq_len, head_dim]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;Q &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; Q&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;view(batch_size, &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, num_heads, head_dim)&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;transpose(&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 计算注意力分数&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;scores &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;matmul(Q, K&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;transpose(&lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;, &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)) &lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt; math&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sqrt(d_k)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 为什么除以 sqrt(d_k)？&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 防止分数值过大，导致 Softmax 进入饱和区（梯度消失）&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 就像&amp;#34;音量调节旋钮&amp;#34;，让模型保持&amp;#34;理智&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十三个人思考与疑问&#34;&gt;十三、个人思考与疑问&#xA;&lt;/h2&gt;&lt;h3 id=&#34;值得学习的亮点&#34;&gt;值得学习的亮点&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;锚点机制&lt;/strong&gt;：把扩散模型的&amp;quot;混沌&amp;quot;约束在 64 个意图分区里，既保证多样性又控制计算量&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;GRPO 的巧妙应用&lt;/strong&gt;：借用 DeepSeek-R1 的技术，解决了模仿学习&amp;quot;不识好歹&amp;quot;的问题&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;乘法噪声&lt;/strong&gt;：一个看似微小的数学改变，却让轨迹在物理平滑度上直接降维打击前代&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h3 id=&#34;待探索的问题&#34;&gt;待探索的问题&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;GRPO 的组大小如何选择&lt;/strong&gt;？8 条还是 16 条？对性能和效率的影响如何？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Mode Selector 是否可以引入时序记忆&lt;/strong&gt;，进一步稳定决策？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;如何处理极端场景&lt;/strong&gt;（如突然出现的障碍物）？&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;参考链接&#34;&gt;参考链接&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;论文原文：DiffusionDriveV2&lt;/li&gt;&#xA;&lt;li&gt;相关工作：DiffusionPlanner, DiffusionDriveV1, DeepSeek-R1 (GRPO)&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;p&gt;&lt;em&gt;本笔记基于 AI 辅助的论文讨论整理而成，保留了讨论中的生动比喻和技术细节。&lt;/em&gt;&lt;/p&gt;&#xA;</description>
        </item><item>
            <title>Epona: Autoregressive Diffusion World Model for End-to-End Autonomous Driving</title>
            <link>https://example.org/post/robotics/e2e/epona/</link>
            <pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/e2e/epona/</guid>
            <description>&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;端到端自动驾驶的视频生成与轨迹规划&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-一句话概括&#34;&gt;🎯 一句话概括&#xA;&lt;/h2&gt;&lt;p&gt;Epona 是一个&lt;strong&gt;自回归扩散世界模型&lt;/strong&gt;，它像拍连续剧一样根据历史画面预测未来，同时用扩散模型保证每一帧画质高清——不仅能&amp;quot;脑补&amp;quot;出未来 2 分钟的驾驶场景，还能学会&amp;quot;红灯停、避让行人&amp;quot;等物理规则。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-核心设计理念&#34;&gt;🧠 核心设计理念&#xA;&lt;/h2&gt;&lt;h3 id=&#34;为什么需要-epona&#34;&gt;为什么需要 Epona？&#xA;&lt;/h3&gt;&lt;p&gt;在自动驾驶领域，存在两类模型各有优劣：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;模型类型&lt;/th&gt;&#xA;          &lt;th&gt;优势&lt;/th&gt;&#xA;          &lt;th&gt;劣势&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;扩散模型&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;画质逼真、细节丰富&lt;/td&gt;&#xA;          &lt;td&gt;短视，难以生成长视频，不懂数理逻辑&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;自回归 Transformer&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;懂因果、能长程推理&lt;/td&gt;&#xA;          &lt;td&gt;图像压缩粗糙，画质模糊&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;Epona 的思路&lt;/strong&gt;：为什么不能兼得？于是采用 &lt;strong&gt;&amp;ldquo;自回归 + 扩散&amp;rdquo;&lt;/strong&gt; 混合架构：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;像&lt;strong&gt;写连续剧&lt;/strong&gt;一样（自回归）根据历史预测未来&lt;/li&gt;&#xA;&lt;li&gt;同时用&lt;strong&gt;扩散模型&lt;/strong&gt;保证每一帧画质高清&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;三大核心创新&#34;&gt;三大核心创新&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;分工明确&lt;/strong&gt;：时空处理分离，效率大幅提升&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;异步生成&lt;/strong&gt;：轨迹规划和视频生成分开进行&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;连锁前向训练&lt;/strong&gt;：解决误差累积问题，能生成长达 2 分钟的视频&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-架构详解&#34;&gt;🏗️ 架构详解&#xA;&lt;/h2&gt;&lt;p&gt;Epona 由三个核心模块组成，像一个精密配合的团队：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;┌─────────────────────────────────────────────────────────────┐&#xA;│                        Epona 架构                            │&#xA;├─────────────────────────────────────────────────────────────┤&#xA;│                                                             │&#xA;│   历史 T 帧 ──┐                                              │&#xA;│               │    ┌─────────┐                              │&#xA;│   历史动作 ────┼───►│   MST   │──► 特征 F                     │&#xA;│               │    │(记忆大师)│       │                      │&#xA;│               ┘    └─────────┘      │                       │&#xA;│                                     │                       │&#xA;│                          ┌──────────┴──────────┐            │&#xA;│                          ▼                     ▼            │&#xA;│                   ┌──────────┐          ┌──────────┐        │&#xA;│                   │ TrajDiT  │          │  VisDiT  │        │&#xA;│                   │(领航员)   │          │ (画师)    │        │&#xA;│                   └────┬─────┘          └────┬─────┘        │&#xA;│                        │                     │              │&#xA;│                        ▼                     ▼              │&#xA;│                   未来轨迹              下一帧画面             │&#xA;│                                                             │&#xA;└─────────────────────────────────────────────────────────────┘&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-21-mst-multimodal-spatiotemporal-transformer&#34;&gt;📚 2.1 MST (Multimodal Spatiotemporal Transformer)&#xA;&lt;/h2&gt;&lt;h3 id=&#34;-角色超级记忆大师&#34;&gt;🎭 角色：超级记忆大师&#xA;&lt;/h3&gt;&lt;p&gt;MST 的任务是将过去复杂的视频画面和驾驶操作，&lt;strong&gt;压缩&lt;/strong&gt;成一个精炼的特征向量。就像一个记忆力超群的人，看一眼就能记住所有关键信息。&lt;/p&gt;&#xA;&lt;h3 id=&#34;输入预处理&#34;&gt;输入预处理&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;原始输入：&#xA;├── 视觉：过去 T 帧 (如 10 帧) 图像，分辨率 512×1024&#xA;└── 动作：每帧对应的历史轨迹（速度、方向盘转角等）&#xA;&#xA;DCAE 压缩处理：&#xA;├── 图像压缩 16 倍：512×1024 → 32×64 特征图&#xA;├── 铺平成 Token：32×64 = 2048 个视觉 Token (记作 L)&#xA;└── 动作投影：动作向量映射到同维度 Token&#xA;&#xA;最终输入张量 E：&#xA;├── 形状：[Batch, T, (L+3), D]&#xA;├── L+3 = 2048 个视觉 Token + 3 个动作 Token&#xA;└── D = 特征维度&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;-时空分离处理--先看时间再看空间&#34;&gt;🔄 时空分离处理 —— &amp;ldquo;先看时间，再看空间&amp;rdquo;&#xA;&lt;/h3&gt;&lt;p&gt;MST 不是同时处理时空，而是&lt;strong&gt;交替进行&lt;/strong&gt;，像这样：&lt;/p&gt;&#xA;&lt;h4 id=&#34;步骤-a时间层--串联历史&#34;&gt;步骤 A：时间层 —— &amp;ldquo;串联历史&amp;rdquo;&#xA;&lt;/h4&gt;&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：让图像中&lt;strong&gt;同一个坐标位置&lt;/strong&gt;的像素点，去查阅自己在过去 $T$ 帧的变化。&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 输入变换&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;原始形状&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;：&lt;/span&gt;[B, T, S, D]    &lt;span style=&#34;color:#75715e&#34;&gt;# S 是空间 Token 数 L+3&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;变换后&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;：&lt;/span&gt;[(B &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; S), T, D]   &lt;span style=&#34;color:#75715e&#34;&gt;# 把空间维度和 Batch 绑在一起&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 物理含义&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;现在模型眼里的&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;一个样本&amp;#34;&lt;/span&gt;&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;，&lt;/span&gt;不再是整段视频&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;，&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;而是视频中某个特定位置的像素点随时间的变化序列&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 关键技术：Causal Mask（因果遮罩）&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;第 &lt;span style=&#34;color:#ae81ff&#34;&gt;5&lt;/span&gt; 帧的像素只能看第 &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;3&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;4&lt;/span&gt; 帧的自己&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;，&lt;/span&gt;不能偷看第 &lt;span style=&#34;color:#ae81ff&#34;&gt;6&lt;/span&gt; 帧&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h4 id=&#34;步骤-b空间层--理解当下&#34;&gt;步骤 B：空间层 —— &amp;ldquo;理解当下&amp;rdquo;&#xA;&lt;/h4&gt;&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：把每一帧看作独立的图片，让图像里的车、路、树木以及动作指令 Token 进行&lt;strong&gt;全注意力交互&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 输入变换&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;变换后&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;：&lt;/span&gt;[(B &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; T), S, D]   &lt;span style=&#34;color:#75715e&#34;&gt;# 把时间维度和 Batch 绑在一起&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 多模态融合&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;视觉信息和动作意图在此处深度融合&lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;-3d-位置编码-embednd&#34;&gt;📍 3D 位置编码 (EmbedND)&#xA;&lt;/h3&gt;&lt;p&gt;Epona 使用&lt;strong&gt;分块对角旋转位置编码 (RoPE)&lt;/strong&gt; 来编码时空位置：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;EmbedND&lt;/span&gt;(dim, theta, axes_dim):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;&amp;#34;&amp;#34;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;    为视频中的每个像素点生成 3D 位置嵌入&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;    维度分配示例：[Time: 2维, Height: 2维, Width: 2维]&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;    &amp;#34;&amp;#34;&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;for&lt;/span&gt; i, (pos, dim) &lt;span style=&#34;color:#f92672&#34;&gt;in&lt;/span&gt; enumerate(zip(axes, axes_dim)):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        out&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;append(rope(pos, dim, theta))&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;cat(out, dim&lt;span style=&#34;color:#f92672&#34;&gt;=-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;形象例子&lt;/strong&gt;：假设要给坐标 &lt;code&gt;(t=5, h=10, w=20)&lt;/code&gt; 的像素编码：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;循环 1 (Time):   Embed(5)  → [0.1, 0.9]&#xA;循环 2 (Height): Embed(10) → [0.5, 0.5]&#xA;循环 3 (Width):  Embed(20) → [0.8, 0.2]&#xA;&#xA;最终拼接：[0.1, 0.9, 0.5, 0.5, 0.8, 0.2]&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;这样，最终向量同时包含时间、高度和宽度信息，互不干扰。&lt;/p&gt;&#xA;&lt;h3 id=&#34;输出&#34;&gt;输出&#xA;&lt;/h3&gt;&lt;p&gt;经过 $N$ 层循环后，提取序列中&lt;strong&gt;最后一帧&lt;/strong&gt;的特征 $\mathbf{F}$。这是包含丰富历史语义和当前状态的高维特征向量，作为后续两个模块的基石。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-22-trajdit-trajectory-planning-dit&#34;&gt;🚗 2.2 TrajDiT (Trajectory Planning DiT)&#xA;&lt;/h2&gt;&lt;h3 id=&#34;-角色决策中枢--老司机&#34;&gt;🎭 角色：决策中枢 &amp;amp; 老司机&#xA;&lt;/h3&gt;&lt;p&gt;拿到 MST 给的局面 $\mathbf{F}$，在不生成图像的情况下，&lt;strong&gt;极速规划&lt;/strong&gt;出未来 3 秒怎么开。&lt;/p&gt;&#xA;&lt;h3 id=&#34;架构双流融合&#34;&gt;架构：双流融合&#xA;&lt;/h3&gt;&lt;p&gt;这是一个专门&amp;quot;画线&amp;quot;（轨迹）的轻量级扩散模型。&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;输入准备：&#xA;├── 条件 (Cond)：来自 MST 的特征 F&#xA;└── 噪声 (Input)：随机高斯噪声 x_T（代表未来轨迹的草稿）&#xA;&#xA;双流阶段 (Dual-Stream Phase)：&#xA;├── 环境流：处理特征 F&#xA;├── 轨迹流：处理噪声轨迹&#xA;└── 通过 Cross-Attention 交换信息&#xA;&#xA;单流阶段 (Single-Stream Phase)：&#xA;├── 两条流拼接，深度混合推理&#xA;└── 确保轨迹与环境严丝合缝&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;-modulation-调制机制&#34;&gt;🔧 Modulation 调制机制&#xA;&lt;/h3&gt;&lt;p&gt;Modulation 是将时间嵌入转化为神经网络控制参数的关键组件：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;class&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;Modulation&lt;/span&gt;:&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;__init__&lt;/span&gt;(self, dim, double):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;multiplier &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;6&lt;/span&gt; &lt;span style=&#34;color:#66d9ef&#34;&gt;if&lt;/span&gt; double &lt;span style=&#34;color:#66d9ef&#34;&gt;else&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;3&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;lin &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; nn&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;Linear(dim, dim &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;multiplier)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;forward&lt;/span&gt;(self, vec):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        out &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;lin(vec&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;silu())&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;chunk(self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;multiplier, dim&lt;span style=&#34;color:#f92672&#34;&gt;=-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; out  &lt;span style=&#34;color:#75715e&#34;&gt;# 返回 (shift, scale, gate) 组&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;参数含义&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;Shift (β)&lt;/strong&gt;：偏移量，平移特征&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Scale (γ)&lt;/strong&gt;：缩放因子，拉伸/压缩特征&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Gate (α)&lt;/strong&gt;：门控值，控制残差连接强度&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-doublestreamblock-vs-singlestreamblock&#34;&gt;📊 DoubleStreamBlock vs SingleStreamBlock&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;特性&lt;/th&gt;&#xA;          &lt;th&gt;DoubleStreamBlock&lt;/th&gt;&#xA;          &lt;th&gt;SingleStreamBlock&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;数据流&lt;/td&gt;&#xA;          &lt;td&gt;两条独立流 (环境+轨迹)&lt;/td&gt;&#xA;          &lt;td&gt;一条混合流&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;调制参数&lt;/td&gt;&#xA;          &lt;td&gt;每条流 6 个，共 12 个&lt;/td&gt;&#xA;          &lt;td&gt;仅 3 个&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;结构&lt;/td&gt;&#xA;          &lt;td&gt;串行逻辑&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;并行逻辑&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;用途&lt;/td&gt;&#xA;          &lt;td&gt;TrajDiT 前期，保护环境特征&lt;/td&gt;&#xA;          &lt;td&gt;TrajDiT 后期/VisDiT，高效推理&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;在 DoubleStreamBlock 中：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 轨迹流&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;img_mod1 &lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;→&lt;/span&gt; 控制 Attention 的 AdaLN 和门控&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;img_mod2 &lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;→&lt;/span&gt; 控制 MLP 的 AdaLN 和门控&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 环境流&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;cond_mod1 &lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;→&lt;/span&gt; 控制 Attention 的 AdaLN 和门控&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;cond_mod2 &lt;span style=&#34;color:#960050;background-color:#1e0010&#34;&gt;→&lt;/span&gt; 控制 MLP 的 AdaLN 和门控&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-23-visdit-next-frame-prediction-dit&#34;&gt;🎨 2.3 VisDiT (Next-frame Prediction DiT)&#xA;&lt;/h2&gt;&lt;h3 id=&#34;-角色超写实画师&#34;&gt;🎭 角色：超写实画师&#xA;&lt;/h3&gt;&lt;p&gt;根据 MST 的特征和 TrajDiT 的轨迹规划，&lt;strong&gt;生成下一帧图像&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;输入准备&#34;&gt;输入准备&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;画布噪声：随机高斯噪声潜变量 Z_{T+1}&#xA;环境参考：MST 的特征 F&#xA;动作指令：TrajDiT 预测的轨迹（关键！）&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;核心机制动作调制&#34;&gt;核心机制：动作调制&#xA;&lt;/h3&gt;&lt;p&gt;轨迹向量转化为控制神经网络的旋钮参数：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 轨迹向量转化为缩放因子和偏移量&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;Input &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; Input &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; Scale(a) &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; Shift(a)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 通过 AdaLN 注入到 Transformer 每一层&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;&#xA;&lt;li&gt;如果规划是&amp;quot;左转&amp;quot;，调制会强迫网络关注左侧特征&lt;/li&gt;&#xA;&lt;li&gt;保证生成画面与规划动作一致&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-分辨率感知的时间偏移-get_schedule&#34;&gt;⏱️ 分辨率感知的时间偏移 (get_schedule)&#xA;&lt;/h3&gt;&lt;p&gt;这是一个**&amp;ldquo;智能时间管理大师&amp;rdquo;**：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;get_schedule&lt;/span&gt;(num_steps, image_seq_len, base_shift&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;0.5&lt;/span&gt;, max_shift&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1.15&lt;/span&gt;):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    timesteps &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;linspace(&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;, num_steps &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)  &lt;span style=&#34;color:#75715e&#34;&gt;# 基础进度条&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;if&lt;/span&gt; shift:&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        mu &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; get_lin_function(base_shift, max_shift)(image_seq_len)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        timesteps &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; time_shift(mu, &lt;span style=&#34;color:#ae81ff&#34;&gt;1.0&lt;/span&gt;, timesteps)   &lt;span style=&#34;color:#75715e&#34;&gt;# 偏移&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; (&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt; &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt; timesteps)&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;tolist()&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;为什么需要它？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;痛点&lt;/strong&gt;：画大图比画小图更难，需要在&amp;quot;宏观构图&amp;quot;阶段多花点时间&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;解决方案&lt;/strong&gt;：根据序列长度自动调整时间表&#xA;&lt;ul&gt;&#xA;&lt;li&gt;序列长（大图）：在高噪声阶段停留更久，先定大轮廓&lt;/li&gt;&#xA;&lt;li&gt;序列短（小图/轨迹）：匀速搞定即可&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;在 Epona 中&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;TrajDiT&lt;/strong&gt;：序列短，时间表几乎不偏移&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;VisDiT&lt;/strong&gt;：序列长（2048 Token），显著偏移&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;时序感知解码&#34;&gt;时序感知解码&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;使用 Temporal-aware DCAE Decoder 解压潜变量&lt;/li&gt;&#xA;&lt;li&gt;参考上一帧的潜变量，消除频闪和抖动&lt;/li&gt;&#xA;&lt;li&gt;输出 512×1024 高清图像&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-关键技术细节&#34;&gt;🎓 关键技术细节&#xA;&lt;/h2&gt;&lt;h3 id=&#34;31-傅立叶嵌入-timestep_embedding&#34;&gt;3.1 傅立叶嵌入 (timestep_embedding)&#xA;&lt;/h3&gt;&lt;p&gt;将低维动作数据映射到高维空间，增强神经网络对细微变化的感知能力：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;timestep_embedding&lt;/span&gt;(t, dim, max_period&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;10000&lt;/span&gt;):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    t &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; time_factor &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; t&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    half &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; dim &lt;span style=&#34;color:#f92672&#34;&gt;//&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    freqs &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; exp(&lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;log(&lt;span style=&#34;color:#ae81ff&#34;&gt;10000&lt;/span&gt;) &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; arange(&lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;, half) &lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt; half)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    args &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; t[:, &lt;span style=&#34;color:#66d9ef&#34;&gt;None&lt;/span&gt;] &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; freqs[&lt;span style=&#34;color:#66d9ef&#34;&gt;None&lt;/span&gt;]&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    embedding &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; cat([cos(args), sin(args)], dim&lt;span style=&#34;color:#f92672&#34;&gt;=-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; embedding&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;原理&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;原始输入：低维向量&lt;/li&gt;&#xA;&lt;li&gt;输出：高维特征，包含从低频到高频的丰富信号&lt;/li&gt;&#xA;&lt;li&gt;效果：神经网络能&amp;quot;看到&amp;quot;微小变化&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;32-rope-vs-正弦编码&#34;&gt;3.2 RoPE vs 正弦编码&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;特性&lt;/th&gt;&#xA;          &lt;th&gt;正弦编码&lt;/th&gt;&#xA;          &lt;th&gt;RoPE&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;相对位置感知&lt;/td&gt;&#xA;          &lt;td&gt;弱&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;强&lt;/strong&gt;（点积只取决于相对距离）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;长度外推性&lt;/td&gt;&#xA;          &lt;td&gt;差&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;好&lt;/strong&gt;（周期性，不死记硬背）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;维度解耦&lt;/td&gt;&#xA;          &lt;td&gt;难&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;优雅&lt;/strong&gt;（分块对角矩阵）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;33-连锁前向训练-chain-of-forward-training&#34;&gt;3.3 连锁前向训练 (Chain-of-Forward Training)&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;痛点&lt;/strong&gt;：自回归模式的误差累积——第一帧歪一点，第 100 帧就崩了&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;解决方案&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;训练时偶尔用模型自己生成的（有瑕疵的）预测结果作为下一轮输入&lt;/li&gt;&#xA;&lt;li&gt;模型被迫学会自我修正&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;效果&lt;/strong&gt;：能生成长达 &lt;strong&gt;2 分钟&lt;/strong&gt;不崩坏的视频&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-完整推理流程&#34;&gt;🔄 完整推理流程&#xA;&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;step_eval&lt;/span&gt;(latents, rel_pose, rel_yaw):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 1. MST 编码：压缩历史信息&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    stt_features, pose_emb &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;evaluate(latents, poses, yaws)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 2. TrajDiT 规划：决定未来怎么走&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    noise_traj &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; randn(&lt;span style=&#34;color:#f92672&#34;&gt;...&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    predict_traj &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; traj_dit&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sample(noise_traj, traj_ids, stt_features)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 3. 提取下一步动作&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    predict_pose, predict_yaw &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; predict_traj[:, &lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;:&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, &lt;span style=&#34;color:#f92672&#34;&gt;...&lt;/span&gt;]&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    pose_emb &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;get_pose_emb(predict_pose, predict_yaw)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 4. VisDiT 生成：脑补下一帧画面&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    noise &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; randn(&lt;span style=&#34;color:#f92672&#34;&gt;...&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    predict_latents &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; dit&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sample(noise, img_ids, stt_features, pose_emb)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; predict_traj, predict_latents&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-实验成果&#34;&gt;📊 实验成果&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;指标&lt;/th&gt;&#xA;          &lt;th&gt;结果&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;视频生成 FVD&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;7.4&lt;/strong&gt; (优于 Vista 7.9, 远超 DriveGAN 73.4)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;视频长度&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;2 分钟&lt;/strong&gt; 且逻辑连贯&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;物理理解&lt;/td&gt;&#xA;          &lt;td&gt;自学懂&amp;quot;红灯停&amp;quot;、&amp;ldquo;避让行人&amp;quot;等规则&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;规划能力&lt;/td&gt;&#xA;          &lt;td&gt;NAVSIM 评测超过多个专门规划模型&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-总结&#34;&gt;💡 总结&#xA;&lt;/h2&gt;&lt;p&gt;Epona 通过 &lt;strong&gt;MST（压缩理解）&lt;/strong&gt;、&lt;strong&gt;TrajDiT（规划导航）&lt;/strong&gt; 和 &lt;strong&gt;VisDiT（受控绘图）&lt;/strong&gt; 三者的精密配合，实现了从&amp;quot;看懂路&amp;quot;到&amp;quot;决定怎么开&amp;quot;再到&amp;quot;脑补未来后果&amp;quot;的完整闭环。&lt;/p&gt;&#xA;&lt;p&gt;它不仅是一个视频生成器，更是一个具备潜力的端到端自动驾驶大脑。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-相关链接&#34;&gt;📎 相关链接&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;论文：Epona: Autoregressive Diffusion World Model for Autonomous Driving&lt;/li&gt;&#xA;&lt;li&gt;相关工作：[[World4Drive - 无需感知标注的端到端世界模型]]、[[LAW - Latent World Model for E2E Driving]]&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;</description>
        </item><item>
            <title>HiP-AD: Hierarchical and Multi-granularity Planning with Deformable Attention</title>
            <link>https://example.org/post/robotics/e2e/hi-p-ad/</link>
            <pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/e2e/hi-p-ad/</guid>
            <description>&lt;hr&gt;&#xA;&lt;h2 id=&#34;一这篇论文在讲什么&#34;&gt;一、这篇论文在讲什么？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心问题ai司机的偏科痛点&#34;&gt;核心问题：AI司机的&amp;quot;偏科&amp;quot;痛点&#xA;&lt;/h3&gt;&lt;p&gt;现在的端到端自动驾驶（E2E-AD）界有个普遍的怪现象：&lt;strong&gt;&amp;ldquo;应试教育&amp;quot;满分，&amp;ldquo;实战上路&amp;quot;拉胯。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;开环测试（开卷考试）&lt;/strong&gt;：给一段历史视频，让 AI 画出未来的行驶轨迹（Waypoints）。大家都画得很好，碰撞率（Collision Rate）极低，甚至能降到 0.1%。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;闭环测试（实车上路）&lt;/strong&gt;：把 AI 扔进仿真软件（比如 Bench2Drive）里真刀真枪地开。结果呢？成功率不到 35%！遇到路口就犹豫不决（超时死机），遇到突发情况就抓瞎。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;问题根源&#34;&gt;问题根源&#xA;&lt;/h3&gt;&lt;p&gt;作者一针见血地指出：目前的 AI 在&amp;quot;规划（Planning）&amp;ldquo;时，和&amp;quot;感知（Perception）&amp;ldquo;的交互太弱了！而且预测出来的轨迹太单调（只有稀疏的几个点），根本不够用来做精细的车辆控制。&lt;/p&gt;&#xA;&lt;h3 id=&#34;hip-ad-的答案&#34;&gt;HiP-AD 的答案&#xA;&lt;/h3&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;用 &lt;strong&gt;&amp;ldquo;分层多粒度预测&amp;rdquo; + &amp;ldquo;顺着轨迹看图像（PDA）&amp;rdquo; + &amp;ldquo;三合一圆桌会议（统一解码器）&amp;rdquo;&lt;/strong&gt;，彻底打通感知与规划的任督二脉&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;二核心方法老司机的三大独门绝技&#34;&gt;二、核心方法：老司机的三大独门绝技&#xA;&lt;/h2&gt;&lt;h3 id=&#34;绝技一多把量尺看世界--分层与多粒度规划&#34;&gt;绝技一：多把量尺看世界 —— 分层与多粒度规划&#xA;&lt;/h3&gt;&lt;p&gt;以前的 AI 预测轨迹，就是每秒打几个点（时间路点，Temporal Waypoints）。这就好比司机只知道&amp;quot;我 3 秒后要到那个路口&amp;rdquo;，但他不知道这 3 秒内方向盘该打几度。&lt;/p&gt;&#xA;&lt;p&gt;HiP-AD 彻底改变了玩法，它不仅预测时间，还把轨迹拆解成了 &lt;strong&gt;三大维度（模态）&lt;/strong&gt;，并且每个维度都有 &lt;strong&gt;不同的颗粒度&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;模态&lt;/th&gt;&#xA;          &lt;th&gt;关注点&lt;/th&gt;&#xA;          &lt;th&gt;颗粒度划分&lt;/th&gt;&#xA;          &lt;th&gt;用途&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;空间路点&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&amp;ldquo;路径&amp;quot;怎么走&lt;/td&gt;&#xA;          &lt;td&gt;密集（2m一个点）&amp;amp; 稀疏（5m一个点）&lt;/td&gt;&#xA;          &lt;td&gt;密集点做精准方向盘微调（横向控制），稀疏点看宏观大局&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;时间路点&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&amp;ldquo;什么时候到哪&amp;rdquo;&lt;/td&gt;&#xA;          &lt;td&gt;高频（5Hz）&amp;amp; 低频（2Hz）&lt;/td&gt;&#xA;          &lt;td&gt;高频应对紧急情况，低频规划长程&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;驾驶风格路点&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&amp;ldquo;车速和动作&amp;rdquo;&lt;/td&gt;&#xA;          &lt;td&gt;慢/中/快（0-4, 4-10, 10+ m/s）&lt;/td&gt;&#xA;          &lt;td&gt;应对超车、紧急刹车等复杂场景&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;控车策略&lt;/strong&gt;：AI 会用空间路点控制方向盘（横向），用时间和驾驶风格路点控制油门刹车（纵向），完美解决由于轨迹点太稀疏导致的&amp;quot;车辆犹豫&amp;quot;问题！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;绝技二指哪打哪的目光--规划可变形注意力pda&#34;&gt;绝技二：指哪打哪的目光 —— 规划可变形注意力（PDA）&#xA;&lt;/h3&gt;&lt;p&gt;以前的 AI 规划器在看周围环境时，是&amp;quot;全局乱瞟&amp;rdquo;（Global Attention），不仅计算量大，还容易抓不到重点。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;HiP-AD 的做法极其聪明&lt;/strong&gt;——它利用了几何学物理规律：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;先把系统预测出的 3D 未来轨迹点（Waypoints），通过相机参数，&lt;strong&gt;投影映射到 2D 的多视角环视图像上&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;然后，只在这些 &lt;strong&gt;&amp;ldquo;车轮即将压过&amp;rdquo;&lt;/strong&gt; 的图像物理位置附近，去采样提取图像特征&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;生动比喻&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;这就像老司机在开车时，目光会死死盯住自己即将开过去的那条车道线和前方的障碍物，而不是去看天上的云彩。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;&lt;strong&gt;数学表达&lt;/strong&gt;：&#xA;$$\text{PDA}(Q_p, F) = \sum_{i \in \mathcal{V}} \text{DeformAttn}(Q_p, \mathcal{P}(A_p), F_i)$$&lt;/p&gt;&#xA;&lt;p&gt;规划主脑有一条预测出的未来 3D 轨迹（$A_p$）。它把这条未来轨迹用函数 $\mathcal{P}$ 投影到多视角的图像（$F$）上，然后只在&amp;quot;未来车轮即将压过的图像像素点&amp;quot;周围提取特征！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;绝技三超级大脑圆桌会议--统一解码器unified-decoder&#34;&gt;绝技三：超级大脑圆桌会议 —— 统一解码器（Unified Decoder）&#xA;&lt;/h3&gt;&lt;p&gt;传统的框架是流水线作业：先做感知（找车、找线）→ 再做预测 → 最后做规划。不仅慢，信息还会衰减。&lt;/p&gt;&#xA;&lt;p&gt;HiP-AD 搞了一个 &lt;strong&gt;&amp;ldquo;单解码器&amp;rdquo;&lt;/strong&gt;，把所有任务拉进一个群里并行开会！&lt;/p&gt;&#xA;&lt;h4 id=&#34;入场的三大代表输入配置&#34;&gt;入场的三大&amp;quot;代表&amp;rdquo;（输入配置）&#xA;&lt;/h4&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;代表&lt;/th&gt;&#xA;          &lt;th&gt;符号&lt;/th&gt;&#xA;          &lt;th&gt;职责&lt;/th&gt;&#xA;          &lt;th&gt;初始坐标（Anchors）&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;🚗 动态物体代表&lt;/td&gt;&#xA;          &lt;td&gt;Agent Query ($Q_a$)&lt;/td&gt;&#xA;          &lt;td&gt;找周围移动的车、人&lt;/td&gt;&#xA;          &lt;td&gt;3D 边界框（Box Anchors）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;🛣️ 静态地图代表&lt;/td&gt;&#xA;          &lt;td&gt;Map Query ($Q_m$)&lt;/td&gt;&#xA;          &lt;td&gt;找车道线、斑马线&lt;/td&gt;&#xA;          &lt;td&gt;聚类算法生成的折线（Polyline Anchors）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;🧠 自动驾驶主脑代表&lt;/td&gt;&#xA;          &lt;td&gt;Planning Query ($Q_p$)&lt;/td&gt;&#xA;          &lt;td&gt;决定咱们自己的车往哪开&lt;/td&gt;&#xA;          &lt;td&gt;未来 $T$ 个时间点的行驶轨迹折线&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h4 id=&#34;圆桌会议的三大议程&#34;&gt;圆桌会议的三大议程&#xA;&lt;/h4&gt;&lt;p&gt;每个 Decoder Layer 都包含以下三个关键环节：&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h4 id=&#34;-议程一翻阅历史案卷--时序交互模块&#34;&gt;🕒 议程一：翻阅历史案卷 —— 时序交互模块&#xA;&lt;/h4&gt;&lt;p&gt;老司机开车绝不能只看眼前，得记得上一秒旁边有辆车想加塞。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;技术动作&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;代表们（Queries）首先会和 &lt;strong&gt;上一帧历史保留下来的重要特征&lt;/strong&gt; 进行 &lt;strong&gt;交叉注意力（Cross-Attention）&lt;/strong&gt; 计算&lt;/li&gt;&#xA;&lt;li&gt;为了防止历史信息太多把脑袋撑爆，系统用了一个 &lt;strong&gt;Top-$k$ 选择机制&lt;/strong&gt;，只保留上一帧最有价值的线索&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;给主脑开小灶&lt;/strong&gt;：规划代表（Planning Query）不但要回顾自己的历史，还会额外增加一次跨任务的 Cross-Attention，专门去盯住历史帧里的感知信息&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h4 id=&#34;-议程二圆桌激烈讨论--协同交互模块&#34;&gt;🗣️ 议程二：圆桌激烈讨论 —— 协同交互模块&#xA;&lt;/h4&gt;&lt;p&gt;看完历史，大家得互相通气了。主脑需要知道哪里有车、哪里是实线，才能规划路线。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;核心技术细节 —— 几何物理融合（公式 1）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;p&gt;$$\text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{C}} - \tau D\right)V$$&lt;/p&gt;&#xA;&lt;p&gt;常规的注意力机制只有前半部分，决定谁和谁更相关。但这里多了一个极其关键的 &lt;strong&gt;&amp;ldquo;惩罚项&amp;rdquo;&lt;/strong&gt;：$- \tau D$&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;$D$ 是什么？&lt;/strong&gt; 两个物体在真实 3D 物理世界里的 &lt;strong&gt;欧几里得距离&lt;/strong&gt;（比如动态车与车之间、车与车道线之间）&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;$\tau$ 是什么？&lt;/strong&gt; 通过多层感知机（MLP）学习出来的系数&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;精妙之处&lt;/strong&gt;：如果一辆车离你很远（$D$ 很大），那么它在注意力分数里就会被狠狠扣分。这强迫 AI 司机 &lt;strong&gt;&amp;ldquo;把有限的注意力集中在离自己最近、最危险的物体上&amp;rdquo;&lt;/strong&gt;！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;主脑的特权&lt;/strong&gt;：这个距离惩罚对感知代表有效，但对 &lt;strong&gt;规划代表没有距离限制&lt;/strong&gt;！为什么？因为作为最高决策者，规划主脑必须有统揽全局的视野。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h4 id=&#34;-议程三去图像里找证据--任务可变形注意力模块&#34;&gt;🎯 议程三：去图像里找证据 —— 任务可变形注意力模块&#xA;&lt;/h4&gt;&lt;p&gt;讨论出了初步结果，代表们需要带着目前的猜测，去原始的摄像机画面里 &lt;strong&gt;&amp;ldquo;精准取证&amp;rdquo;&lt;/strong&gt;，刷新自己的认知。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;感知代表的做法&lt;/strong&gt;：把 3D 锚点顺着预设高度，利用相机参数 &lt;strong&gt;投影到 2D 环视图像上&lt;/strong&gt;，然后在投影落下的那个点附近采样提取图像特征。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;规划主脑的终极奥义（PDA）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;把预测的&amp;quot;未来 3D 行驶轨迹路点&amp;quot;投影到多个摄像头画面上&lt;/li&gt;&#xA;&lt;li&gt;让主脑自己学习：在轨迹周围哪些像素点最值得关注？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;目光死死盯住&amp;quot;车轮即将压过的未来路线&amp;quot;周围的画面！提取图像特征。&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;三伪代码实现老司机的脑神经&#34;&gt;三、伪代码实现：老司机的脑神经&#xA;&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; torch&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; torch.nn.functional &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; F&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;Unified_Decoder&lt;/span&gt;(&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    image_features,   &lt;span style=&#34;color:#75715e&#34;&gt;# [多视角环视图像特征 F] (监控录像)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    queries,          &lt;span style=&#34;color:#75715e&#34;&gt;# [动态物体Qa, 静态地图Qm, 规划主脑Qp] (拿着清单的代表)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    anchors,          &lt;span style=&#34;color:#75715e&#34;&gt;# [动态框Aa, 静态线段Am, 未来轨迹Ap] (各自关注的3D物理坐标)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    history_memory,   &lt;span style=&#34;color:#75715e&#34;&gt;# [上一帧存下来的重要记忆]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    camera_params,    &lt;span style=&#34;color:#75715e&#34;&gt;# [相机的内外参矩阵] (用于3D到2D的投影)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    num_layers&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;6&lt;/span&gt;      &lt;span style=&#34;color:#75715e&#34;&gt;# 会议通常要开好几轮 (堆叠6层Decoder)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# --- 会议前奏：代表入场 ---&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    Qa, Qm, Qp &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; queries&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    Aa, Am, Ap &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; anchors&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 🔄 开始循环开会：每一层 Decoder 都在进行信息的深度融合&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;for&lt;/span&gt; layer &lt;span style=&#34;color:#f92672&#34;&gt;in&lt;/span&gt; range(num_layers):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 🕒 议程一：时序交互模块 (Temporal Interaction Module)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 目标：&amp;#34;温故知新&amp;#34;，看看上一秒发生了什么。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 1. 脑容量有限，用 Top-k 机制挑选上一帧最有价值的记忆点&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        hist_k_agent, hist_k_map, hist_k_plan &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; select_top_k(history_memory)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 2. 感知代表各自查阅自己的历史卷宗 (Cross-Attention)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qa &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; CrossAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qa, key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_agent, value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_agent)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qm &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; CrossAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qm, key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_map,   value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_map)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 💡 3. 【老司机的特权】规划主脑不仅看自己的历史轨迹，&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;#    还要盯着历史的感知环境！&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qp_self_hist &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; CrossAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qp, key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_plan, value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_plan)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qp_perc_hist &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; CrossAttention(&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qp,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;concat(hist_k_agent, hist_k_map),&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;concat(hist_k_agent, hist_k_map)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        )&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qp &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; combine_features(Qp_self_hist, Qp_perc_hist)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 🗣️ 议程二：协同交互模块 (Collaborative Interaction Module)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 目标：统一的圆桌会议，互相通气，引入&amp;#34;物理距离惩罚&amp;#34;！&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 1. 把所有人拉进一个群里&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Q_all &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; concat(Qa, Qm, Qp)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        A_all &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; concat(Aa, Am, Ap)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 2. 计算纯粹的注意力分数 (谁跟谁有关联)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        attn_scores &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;matmul(Q_all, Q_all&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;transpose(&lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;, &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)) &lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt; math&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sqrt(C)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 💡 3. 【核心技术细节：公式(1)】计算真实物理世界中 3D 锚点之间的距离矩阵 D&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        D_matrix &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; calc_euclidean_distance_3d(A_all, A_all)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# ⚠️ 【主脑特权掩码】规划主脑(Qp)看所有人都不受距离限制&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        D_matrix &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; apply_planning_mask(D_matrix, mask_value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;0.0&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 4. 用一个小网络学习一个动态系数 tau (控制惩罚力度)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        tau &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; MLP(Q_all)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 5. 施加物理距离惩罚！距离越远的物体，注意力得分被扣得越惨&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        penalized_scores &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; attn_scores &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt; (tau &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; D_matrix)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        attn_weights &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; F&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;softmax(penalized_scores, dim&lt;span style=&#34;color:#f92672&#34;&gt;=-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 6. 根据惩罚后的权重，大家交换情报&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Q_all_updated &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;matmul(attn_weights, Q_all)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 7. 散会，大家拿着更新后的情报各自归位&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qa, Qm, Qp &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; split_queries(Q_all_updated)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 🎯 议程三：任务可变形注意力模块 (Task Deformable Attention Module)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 目标：拿着讨论结果，去图像画面里&amp;#34;精准取证&amp;#34;。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 1. 感知代表去找车和线：把 3D 的框和线投影到 2D 图像上&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        P_a_2d &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; project_3D_to_2D(Aa, camera_params)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        P_m_2d &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; project_3D_to_2D(Am, camera_params)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qa &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; DeformableAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qa, reference_points&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;P_a_2d, features&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;image_features)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qm &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; DeformableAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qm, reference_points&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;P_m_2d, features&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;image_features)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 💡 2. 【核心技术细节：公式(2) PDA】规划主脑的终极绝技！&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;#    把预测的&amp;#34;未来3D行驶轨迹路点&amp;#34;投影到多个摄像头画面上&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        P_p_2d &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; project_trajectory_to_2D(Ap, camera_params, predefined_heights)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 让主脑自己学习：在轨迹周围哪些像素点最值得关注？&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        sampling_offsets, sampling_weights &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; MLP_predict_offsets_weights(Qp)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 施展 PDA：目光死死盯住&amp;#34;车轮即将压过的未来路线&amp;#34;周围的画面！&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qp &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; PDA_DeformableAttention(&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qp,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            reference_points&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;P_p_2d,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            offsets&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;sampling_offsets,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            weights&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;sampling_weights,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            features&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;image_features&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        )&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 🔄 层级收尾：更新代表们的 3D 坐标锚点&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Aa &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; update_anchors(Aa, Qa)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Am &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; update_anchors(Am, Qm)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Ap &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; update_anchors(Ap, Qp)  &lt;span style=&#34;color:#75715e&#34;&gt;# 轨迹越来越精确&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 🚪 整个开会流程结束，输出给外面的业务部门 (Heads) 去执行&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    update_history_memory(Qa, Qm, Qp)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; Qa, Qm, Qp&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;伪代码里的三个高光时刻&#34;&gt;伪代码里的三个&amp;quot;高光时刻&amp;rdquo;&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;&lt;strong&gt;议程一中的 &lt;code&gt;combine_features(Qp_self_hist, Qp_perc_hist)&lt;/code&gt;&lt;/strong&gt;：规划时不仅记得自己上一秒想怎么走，还 &lt;strong&gt;直接&lt;/strong&gt; 调取了上一秒周围环境的原始记忆，没有中间商赚差价。&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;&lt;strong&gt;议程二中的 &lt;code&gt;penalized_scores = attn_scores - (tau * D_matrix)&lt;/code&gt;&lt;/strong&gt;：这就是论文里最惊艳的 &lt;strong&gt;几何物理融合&lt;/strong&gt;。它强迫网络变成一个真正的司机——&amp;ldquo;不要看天上飞的鸟，看离你保险杠只有半米远的那辆车！&amp;rdquo;&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;&lt;strong&gt;议程三中的 &lt;code&gt;PDA_DeformableAttention&lt;/code&gt;&lt;/strong&gt;：传统的网络是在图像上撒网捞鱼，而这里是 &lt;strong&gt;&amp;ldquo;按图索骥&amp;rdquo;&lt;/strong&gt;。沿着预测轨迹投影到 2D 上的路线，只在这个轨迹的左右两边提取图像特征。&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;四秘密训练法对齐匹配align-matching&#34;&gt;四、秘密训练法：对齐匹配（Align Matching）&#xA;&lt;/h2&gt;&lt;p&gt;因为搞出了几十种不同粒度、不同模态的预测轨迹，训练的时候 AI 容易&amp;quot;精神分裂&amp;rdquo;，到底哪个才是最准的？&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;对齐匹配机制（公式 6）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在训练时，采用 &lt;strong&gt;&amp;ldquo;赢家通吃&amp;rdquo;（Winner-takes-all）&lt;/strong&gt; 的策略&lt;/li&gt;&#xA;&lt;li&gt;先在所有的轨迹预测组里，找到和真实人类轨迹（Ground Truth）差距最小（L2 距离最小）的那组作为&amp;quot;学霸（Reference）&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;然后，强迫其他所有的粒度组，都向这个&amp;quot;学霸&amp;quot;的模态对齐，共享匹配结果，把梯度有效地反向传播回去&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;五战绩揭晓实验结果&#34;&gt;五、战绩揭晓（实验结果）&#xA;&lt;/h2&gt;&lt;p&gt;这位练成神功的 HiP-AD 老司机去考场了，结果直接&amp;quot;屠榜&amp;quot;！&lt;/p&gt;&#xA;&lt;h3 id=&#34;闭环终极测验bench2drive-数据集&#34;&gt;闭环终极测验（Bench2Drive 数据集）&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;指标&lt;/th&gt;&#xA;          &lt;th&gt;HiP-AD&lt;/th&gt;&#xA;          &lt;th&gt;第二名（DriveTransformer）&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;成功率&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;72.7%&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;35%（翻了一倍多）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;驾驶得分&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;88.3&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;远超所有现有端到端模型&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;特殊技能考核&#34;&gt;特殊技能考核&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;高难度科目&lt;/th&gt;&#xA;          &lt;th&gt;成功率&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;紧急刹车&lt;/td&gt;&#xA;          &lt;td&gt;83.33%&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;超车&lt;/td&gt;&#xA;          &lt;td&gt;84.44%&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;汇入车流&lt;/td&gt;&#xA;          &lt;td&gt;50%&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;不再像以前的模型那样遇到复杂路况就死机！&lt;/p&gt;&#xA;&lt;h3 id=&#34;开环基础测验nuscenes-数据集&#34;&gt;开环基础测验（nuScenes 数据集）&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;碰撞率&lt;/strong&gt;：0.01% - 0.05%（极低）&lt;/li&gt;&#xA;&lt;li&gt;感知和预测任务也拿到了顶尖分数，证明底盘依然极度扎实&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;六总结与局限&#34;&gt;六、总结与局限&#xA;&lt;/h2&gt;&lt;h3 id=&#34;一句话总结&#34;&gt;一句话总结&#xA;&lt;/h3&gt;&lt;p&gt;HiP-AD 通过 &lt;strong&gt;&amp;ldquo;分层多粒度预测&amp;rdquo; + &amp;ldquo;顺着轨迹看图像（PDA）&amp;rdquo; + &amp;ldquo;三合一圆桌会议（统一解码器）&amp;rdquo;&lt;/strong&gt;，彻底打通了感知与规划的任督二脉，解决了端到端自动驾驶在闭环仿真中不敢开、不会开的难题。&lt;/p&gt;&#xA;&lt;h3 id=&#34;局限性论文坦诚&#34;&gt;局限性（论文坦诚）&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;遇到后方突然高速冲过来的车辆时，系统有时候还是会反应不及（这确实也是人类司机的盲区）&lt;/li&gt;&#xA;&lt;li&gt;目前还在仿真阶段，真车路测将是未来的星辰大海&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;参考来源&#34;&gt;参考来源&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;原论文：HiP-AD: Hierarchical and Multi-granularity Planning with Deformable Attention for End-to-End Autonomous Driving&lt;/li&gt;&#xA;&lt;li&gt;讨论：Gemini 3.1 Pro Preview 对话记录&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;</description>
        </item><item>
            <title>MomAD: Momentum-Aware Planning in End-to-End Autonomous Driving</title>
            <link>https://example.org/post/robotics/e2e/mom-ad/</link>
            <pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/e2e/mom-ad/</guid>
            <description>&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;论文标题：《Don&amp;rsquo;t Shake the Wheel: Momentum-Aware Planning in End-to-End Autonomous Driving》&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;一这篇论文在讲什么&#34;&gt;一、这篇论文在讲什么？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心问题ai司机的帕金森式哆嗦&#34;&gt;核心问题：AI司机的&amp;quot;帕金森式哆嗦&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;光看标题脑海里是不是就有画面了？没错，这篇论文解决的就是自动驾驶汽车**&amp;ldquo;疯狂画龙&amp;rdquo;、&amp;ldquo;方向盘乱抖&amp;rdquo;**的痛点！&lt;/p&gt;&#xA;&lt;p&gt;现在的端到端自动驾驶模型（如UniAD、VAD等）存在一个致命弱点：&lt;strong&gt;&amp;ldquo;单帧依赖（One-shot prediction）&amp;rdquo;&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;p&gt;这就像一个新手司机，每开一秒钟都要重新做一次决定，完全不管上一秒自己是怎么想的。如果遇到短暂的视野遮挡（比如旁边大车挡了一下），或者感知模块稍微闪烁了一下，它就会立刻改变主意，导致车辆轨迹疯狂摇摆（Vehicle Trembling）。&lt;/p&gt;&#xA;&lt;h3 id=&#34;figure-1-的直观对比&#34;&gt;Figure 1 的直观对比&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;规划模式&lt;/th&gt;&#xA;          &lt;th&gt;问题表现&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;确定性规划（a）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;只给一条路，遇到突发情况容易撞&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;多模态规划（b）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;给很多条路让你选，但每一帧都在不同轨迹间横跳，导致方向盘乱打&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;MomAD方案&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;用&amp;quot;动量&amp;quot;保持轨迹连贯性，同时保留多模态应对突发情况&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;核心洞察老司机的动量智慧&#34;&gt;核心洞察：老司机的&amp;quot;动量&amp;quot;智慧&#xA;&lt;/h3&gt;&lt;p&gt;人类老司机是怎么开车的？是有&amp;quot;惯性&amp;quot;和&amp;quot;动量&amp;quot;的！我们不会因为别人闪了一下大灯就猛打方向盘，我们会根据之前的行驶意图保持连贯性。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;MomAD就是要赋予AI这种&amp;quot;老司机&amp;quot;的稳重感。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;二核心方法momad的三大法宝&#34;&gt;二、核心方法：MomAD的三大法宝&#xA;&lt;/h2&gt;&lt;p&gt;MomAD框架是怎么做到&amp;quot;稳如老狗&amp;quot;的？核心在于三大技术模块：&lt;/p&gt;&#xA;&lt;h3 id=&#34;法宝一拓扑轨迹匹配ttm---topological-trajectory-matching&#34;&gt;法宝一：拓扑轨迹匹配（TTM - Topological Trajectory Matching）&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;核心目标&lt;/strong&gt;：在K个候选轨迹中，找出一个跟上一帧意图最&amp;quot;顺滑&amp;quot;衔接的轨迹。&lt;/p&gt;&#xA;&lt;h4 id=&#34;1-坐标系转换&#34;&gt;1. 坐标系转换&#xA;&lt;/h4&gt;&lt;p&gt;因为车一直在往前开，前一帧和当前帧的坐标系不一样了。TTM第一步就是把历史轨迹转换到当前的自车坐标系下：&lt;/p&gt;&#xA;&lt;p&gt;$$T_{past_aligned} = R^{-1}(T_{past} - \Gamma)$$&lt;/p&gt;&#xA;&lt;p&gt;其中 $R^{-1}$ 是旋转矩阵的逆，$\Gamma$ 是位移向量。&lt;/p&gt;&#xA;&lt;h4 id=&#34;2-为什么不用简单的欧式距离&#34;&gt;2. 为什么不用简单的欧式距离？&#xA;&lt;/h4&gt;&lt;p&gt;很多模型比对轨迹时用的是欧氏距离（按点算距离），但这玩意儿在过弯道时极其不准，容易被局部干扰。&lt;/p&gt;&#xA;&lt;h4 id=&#34;3-引入豪斯多夫距离hausdorff-distance&#34;&gt;3. 引入豪斯多夫距离（Hausdorff Distance）&#xA;&lt;/h4&gt;&lt;p&gt;TTM祭出了这个大杀器！豪斯多夫距离测量的是两条轨迹间&lt;strong&gt;最大偏差的最小值&lt;/strong&gt;（最坏情况下的对齐程度）。&lt;/p&gt;&#xA;&lt;p&gt;$$d_H(T_a, T_b) = \max{d_{forward}(T_a, T_b), d_{backward}(T_b, T_a)}$$&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;生动比喻&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;豪斯多夫距离不仅看两个点离得近不近，更看整个轨迹的&amp;quot;形状（拓扑结构）&amp;ldquo;像不像。这就像比对两条弯曲的山路，不是看某个点对齐没，而是看整体走势是否吻合。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;通过豪斯多夫距离，TTM选出那条和历史轨迹最吻合的当前候选轨迹。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;法宝二动量规划交互器mpi---momentum-planning-interactor&#34;&gt;法宝二：动量规划交互器（MPI - Momentum Planning Interactor）&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;核心目标&lt;/strong&gt;：光选出来还不够，还要把历史的&amp;quot;经验（动量）&amp;ldquo;注入到当前的Query中。&lt;/p&gt;&#xA;&lt;h4 id=&#34;子模块a长时序查询混合器long-horizon-query-mixer&#34;&gt;子模块A：长时序查询混合器（Long-horizon Query Mixer）&#xA;&lt;/h4&gt;&lt;p&gt;它把历史的规划Query取出来，通过多层感知机（MLP）和**LSTM（长短期记忆网络）**进行时序演化：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 用Sigmoid处理历史分数，并与历史Query做逐元素乘法（融合历史置信度）&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;historical_fusion &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sigmoid(S_past) &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;mlp_mixer(Q_past)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 用LSTM模拟时序上的演化&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;Q_past_prime, _ &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;lstm(historical_fusion&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;unsqueeze(&lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;))&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;这就像是把过去几秒钟的环境理解和别人车辆的意图&amp;quot;浓缩&amp;quot;了起来。&lt;/p&gt;&#xA;&lt;h4 id=&#34;子模块b交叉注意力融合&#34;&gt;子模块B：交叉注意力融合&#xA;&lt;/h4&gt;&lt;p&gt;用选中的当前Query作为主动方，去和浓缩好的历史信息做交叉注意力计算：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Q: 当前选出的最优 Query&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# K, V: 经过时序演化的历史 Query&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;Q_tilde_p_star_t, _ &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;cross_attention(&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Q_p_star_t,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Q_past_prime,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Q_past_prime&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;关键理解&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;当前帧只提供 &lt;code&gt;query&lt;/code&gt;（此刻我想怎么走），而 &lt;code&gt;key&lt;/code&gt; 和 &lt;code&gt;value&lt;/code&gt; 全是上一帧经过LSTM提纯的记忆（我过去几秒是怎么打算的）。这一步让模型长了&amp;quot;脑子&amp;rdquo;，不再是只会看眼前的金鱼记忆！&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;法宝三鲁棒实例去噪robust-instance-denoising&#34;&gt;法宝三：鲁棒实例去噪（Robust Instance Denoising）&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;核心目标&lt;/strong&gt;：锻炼模型对感知噪声的抵抗能力。&lt;/p&gt;&#xA;&lt;p&gt;既然感知模块提供的特征（比如其他车的位置、车道线）可能不准，那就在训练时&amp;quot;折磨&amp;quot;它！&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 训练期间加入高斯噪声扰动&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;if&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;training &lt;span style=&#34;color:#f92672&#34;&gt;and&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;use_noise:&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    noise &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;randn_like(features_t) &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;0.1&lt;/span&gt;  &lt;span style=&#34;color:#75715e&#34;&gt;# 论文消融实验中噪声比例为0.1最优&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    features_t &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; features_t &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; noise&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;作用机制&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;让模型在训练时就习惯看&amp;quot;模糊、抖动&amp;quot;的世界。在测试时，这个去噪能力让规划预测器对环境波动极度免疫，即使遇到临时遮挡或漏检，依然能画出平滑的轨迹。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;三全新标尺怎么量化稳不稳&#34;&gt;三、全新标尺：怎么量化&amp;quot;稳不稳&amp;rdquo;？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;传统指标的局限性&#34;&gt;传统指标的局限性&#xA;&lt;/h3&gt;&lt;p&gt;以前的评价指标只看&amp;quot;当前帧准不准&amp;quot;，不看&amp;quot;前后帧连不连贯&amp;quot;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;tpc轨迹预测一致性定义&#34;&gt;TPC（轨迹预测一致性）定义&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;轨迹预测一致性（Trajectory Prediction Consistency）&lt;/strong&gt;：在重叠的时间段内，计算&amp;quot;当前预测的轨迹&amp;quot;和&amp;quot;上一帧预测的轨迹&amp;quot;之间的平方差，然后再用真实的验证集轨迹做掩码过滤。&lt;/p&gt;&#xA;&lt;p&gt;$$TPC = \frac{1}{N}\sum_{t}||T_{pred}^{t} - T_{pred}^{t-1}||^2 \cdot Mask$$&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;TPC越低，说明车开得越平顺，乘客越不容易晕车！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;四狂飙的成绩单&#34;&gt;四、狂飙的成绩单&#xA;&lt;/h2&gt;&lt;h3 id=&#34;41-首创弯道数据集turning-nuscenes&#34;&gt;4.1 首创&amp;quot;弯道数据集（Turning-nuScenes）&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;作者发现原来的nuScenes数据集里直道太多了，看不出谁更稳。于是专门把&amp;quot;转弯&amp;quot;的场景挑出来做测试（转弯最容易方向盘发抖）。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;惊人数据（Table 3）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;预测未来6秒的轨迹，MomAD相比之前的SOTA模型（SparseDrive），&lt;strong&gt;碰撞率暴降了26%&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;TPC指标大幅优化了&lt;strong&gt;0.97米（提升33.45%）&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;42-长时间预测远超同行&#34;&gt;4.2 长时间预测远超同行&#xA;&lt;/h3&gt;&lt;p&gt;预测1-2秒不算啥，预测4-6秒还能保持稳定才叫牛。随着时间拉长，其他模型误差飙升，而MomAD依然保持着极高的平滑度。&lt;/p&gt;&#xA;&lt;h3 id=&#34;43-闭环路测bench2drive&#34;&gt;4.3 闭环路测（Bench2Drive）&#xA;&lt;/h3&gt;&lt;p&gt;在CARLA模拟器里跑闭环（Table 4），包含超车、避让等44个交互场景：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;成功率提高了惊人的16.3%&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;舒适度提升了&lt;strong&gt;7.2%&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;44-消融实验亮点&#34;&gt;4.4 消融实验亮点&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;历史帧数消融（Table 7）&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;历史帧不是越多越好。作者发现融合前 $t=2$ 帧的历史信息时，效果达到巅峰；如果融合 $t=3$ 帧，反而因为历史太久远引入了不确定性，导致效果下降。&lt;strong&gt;这叫&amp;quot;恰到好处的记忆&amp;quot;&lt;/strong&gt;。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;&lt;strong&gt;噪声注入消融（Table 6）&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;加了Robust Instance Denoising模块后性能稳步提升，验证了训练时加噪对抵抗感知闪烁的有效性。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;五深度讨论历史意图引入的因果混淆陷阱&#34;&gt;五、深度讨论：历史意图引入的&amp;quot;因果混淆&amp;quot;陷阱&#xA;&lt;/h2&gt;&lt;h3 id=&#34;一个极其犀利的专家级问题&#34;&gt;一个极其犀利的专家级问题&#xA;&lt;/h3&gt;&lt;p&gt;引入历史意图（也就是上一帧的Query或者轨迹）虽然能让车开得&amp;quot;稳&amp;quot;，但如果不加限制，模型会变成一个&amp;quot;闭着眼睛开车的瞎子&amp;quot;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;三大致命因果混淆陷阱&#34;&gt;三大致命因果混淆陷阱&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;陷阱&lt;/th&gt;&#xA;          &lt;th&gt;现象&lt;/th&gt;&#xA;          &lt;th&gt;灾难后果&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;因果倒置（惯性覆盖）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&amp;ldquo;上一秒我在直行 → 所以这一秒我继续直行&amp;rdquo;&lt;/td&gt;&#xA;          &lt;td&gt;无视前方突然出现的外卖小哥，直接撞上去&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;捷径退化（恒等映射）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;网络发现直接复制上一帧输出Loss就够低&lt;/td&gt;&#xA;          &lt;td&gt;感知模块退化，变成只会根据昨天猜今天的时间序列外推器&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;误差雪球（蝴蝶效应）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;第1帧的小误判被后续帧不断放大&lt;/td&gt;&#xA;          &lt;td&gt;即使视野恢复清晰，模型也因为历史执念拉不回来&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;momad的破局之道&#34;&gt;MomAD的破局之道&#xA;&lt;/h3&gt;&lt;h4 id=&#34;1-架构约束用交叉注意力逼迫模型看路&#34;&gt;1. 架构约束：用交叉注意力逼迫模型&amp;quot;看路&amp;quot;&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;历史意图（提纯后的 $Q_{past}$）作为&lt;strong&gt;Key和Value&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;当前帧的初筛意图作为&lt;strong&gt;Query&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;融合后的Query必须再和当前帧最新的感知实例特征（$F_{ins}$）做二次深度融合&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;原理&lt;/strong&gt;：历史只提供&amp;quot;底色&amp;quot;，生杀大权依然牢牢掌握在当前帧的感知特征手里。&lt;/p&gt;&#xA;&lt;h4 id=&#34;2-训练秘籍历史dropout&#34;&gt;2. 训练秘籍：历史Dropout&#xA;&lt;/h4&gt;&lt;p&gt;随机以一定概率把历史意图置为空，强制模型只凭当前帧的单帧图像去做规划。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;原理&lt;/strong&gt;：斩断捷径，让网络明白&amp;quot;不能总是指望抄前一秒的作业&amp;quot;。&lt;/p&gt;&#xA;&lt;h4 id=&#34;3-施加微扰打破舒适区&#34;&gt;3. 施加微扰：打破舒适区&#xA;&lt;/h4&gt;&lt;p&gt;Robust Instance Denoising实际上是一种&lt;strong&gt;因果干预&lt;/strong&gt;，告诉模型要在噪声和历史之间找到真正的因果平衡点。&lt;/p&gt;&#xA;&lt;h4 id=&#34;4-终极验证闭环评测&#34;&gt;4. 终极验证：闭环评测&#xA;&lt;/h4&gt;&lt;p&gt;如果模型严重因果混淆，在闭环里不出10秒就会撞树。MomAD在Bench2Drive闭环测试中成功率提升16.3%，是克服因果混淆的最硬核证据。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;六为什么在query层面融合历史&#34;&gt;六、为什么在&amp;quot;Query层面&amp;quot;融合历史？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;问题本质&#34;&gt;问题本质&#xA;&lt;/h3&gt;&lt;p&gt;为什么MomAD选择融合历史Query，而不是直接把前后两帧的感知实例（几十个框）融合在一起？&lt;/p&gt;&#xA;&lt;h3 id=&#34;直接融合感知实例的三大致命问题&#34;&gt;直接融合感知实例的三大致命问题&#xA;&lt;/h3&gt;&lt;h4 id=&#34;1-目标关联灾难&#34;&gt;1. 目标关联灾难&#xA;&lt;/h4&gt;&lt;p&gt;如果把 $t-1$ 帧和 $t$ 帧的实例特征直接堆叠，网络怎么知道上一帧的&amp;quot;框A&amp;quot;和这一帧的&amp;quot;框B&amp;quot;是同一辆车？&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;MomAD的高明之处&lt;/strong&gt;：不在&amp;quot;环境（框）&amp;ldquo;层面做跨帧融合，而在&amp;quot;自我意图&amp;quot;层面做融合，巧妙地绕开了显式的多目标跟踪难题。&lt;/p&gt;&#xA;&lt;h4 id=&#34;2-信息过载与模式崩溃&#34;&gt;2. 信息过载与模式崩溃&#xA;&lt;/h4&gt;&lt;p&gt;把太多原始的环境特征直接丢给Planning Head，网络往往偷懒：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;学会直接忽略历史特征，退化回单帧模型&lt;/li&gt;&#xA;&lt;li&gt;或者预测出不左不右、直接撞墙的&amp;quot;平均轨迹&amp;rdquo;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;MomAD通过TTM强制进行&amp;quot;信息漏斗&amp;quot;过滤：只把&amp;quot;你上一秒最想干的那件事&amp;quot;通过Query塞进去。&lt;/p&gt;&#xA;&lt;h4 id=&#34;3-缺乏主观动量&#34;&gt;3. 缺乏&amp;quot;主观动量&amp;quot;&#xA;&lt;/h4&gt;&lt;p&gt;动量是属于主体的，不是属于环境的。只有交互历史Query，网络才能记住&amp;quot;我原本打算干什么&amp;quot;。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;七交叉注意力的工作机制&#34;&gt;七、交叉注意力的工作机制&#xA;&lt;/h2&gt;&lt;h3 id=&#34;信息流动全景图&#34;&gt;信息流动全景图&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;当前Query（我想怎么走）&#xA;    --查询--&amp;gt; 历史Key/Value（我过去怎么打算）&#xA;         ↓&#xA;    融合后的Query（吸收历史动量的&amp;#34;金丹&amp;#34;）&#xA;         ↓&#xA;    结合当前感知特征(F_ins)&#xA;         ↓&#xA;    Planning Head再次裂变，输出K条多模态轨迹&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;关键理解&#34;&gt;关键理解&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;被选中的Query是一个&amp;quot;时空锚点&amp;quot;&lt;/strong&gt;，代表的是&amp;quot;自车当前最稳定、最符合物理惯性的综合运动状态&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;&amp;ldquo;一生万物&amp;quot;的多模态再生&lt;/strong&gt;：这唯一一个被历史记忆开过光的Query，在和实例特征结合后，会再次裂变输出K条多模态轨迹。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;八潜在的失败模式&#34;&gt;八、潜在的失败模式&#xA;&lt;/h2&gt;&lt;h3 id=&#34;模式一稀疏表示的先天不足信息漏斗带来的强制失忆&#34;&gt;模式一：稀疏表示的&amp;quot;先天不足&amp;rdquo;——信息漏斗带来的强制失忆&#xA;&lt;/h3&gt;&lt;p&gt;稀疏Query架构的本质是一个&amp;quot;极度势利的安检员&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;预定义本体的诅咒&lt;/strong&gt;：模型在设计之初，工程师会给它规定好能提取几类Query（车辆、行人、自行车、车道线、斑马线）。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;边缘场景灾难&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;当空中指示牌出现在画面里时，因为&amp;quot;空中指示牌的文字和状态&amp;quot;不在预定义的Query类别里，这个&amp;quot;安检员&amp;quot;把它当作垃圾扔掉了&lt;/li&gt;&#xA;&lt;li&gt;越过指示牌后，历史记忆中根本不存在&amp;quot;刚才有个牌子&amp;quot;这件事&lt;/li&gt;&#xA;&lt;li&gt;Planning Head完全不知道这是一条特定时段只能左转的可变车道&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;模式二稀疏实例特征的材质丢失&#34;&gt;模式二：稀疏实例特征的材质丢失&#xA;&lt;/h3&gt;&lt;p&gt;$F_{ins}$ 虽然是一个256维的隐式特征向量（包含纹理、反光度、边缘锐利度等信息），但：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;如果图像分辨率不够，或夜间噪点大，Deformable Attention没采样准&lt;/li&gt;&#xA;&lt;li&gt;砖块和塑料袋的256维特征就会混淆&lt;/li&gt;&#xA;&lt;li&gt;出于安全保守策略，自动驾驶车大概率会选择急刹或猛打方向盘避让那个塑料袋&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这就是&lt;strong&gt;幽灵刹车&lt;/strong&gt;问题的根源。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;九行业趋势与未来方向&#34;&gt;九、行业趋势与未来方向&#xA;&lt;/h2&gt;&lt;h3 id=&#34;从空间单帧感知到时空连续决策的跨越&#34;&gt;从&amp;quot;空间单帧感知&amp;quot;到&amp;quot;时空连续决策&amp;quot;的跨越&#xA;&lt;/h3&gt;&lt;h4 id=&#34;四大解题流派&#34;&gt;四大解题流派&#xA;&lt;/h4&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;流派&lt;/th&gt;&#xA;          &lt;th&gt;代表作&lt;/th&gt;&#xA;          &lt;th&gt;核心思想&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;流式架构&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;StreamPETR, SparseDrive&lt;/td&gt;&#xA;          &lt;td&gt;不存庞大的图像特征，只存上一帧&amp;quot;提纯后的结果&amp;quot;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;世界模型&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;GAIA-1, MILE, DriveDreamer&lt;/td&gt;&#xA;          &lt;td&gt;不仅预测方向盘和油门，还逼着预测未来的世界长什么样&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;反事实推断&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;基于CARLA的闭环端到端&lt;/td&gt;&#xA;          &lt;td&gt;故意把车推向危险边缘，看模型怎么救回来&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;4D占据栅格&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;OccNet, UniOcc&lt;/td&gt;&#xA;          &lt;td&gt;在3D体素空间里加上时间维度，预测场景流&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;终极前沿mamba状态空间模型&#34;&gt;终极前沿：Mamba（状态空间模型）&#xA;&lt;/h3&gt;&lt;p&gt;比Transformer更适合处理无限长序列：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;Transformer算注意力机制，时间序列越长，算力呈 $O(N^2)$ 爆炸&lt;/li&gt;&#xA;&lt;li&gt;Mamba可以在保持恒定显存占用的情况下，将历史感受野拉长到过去几十上百帧&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;进化方向&#34;&gt;进化方向&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;方向一：视觉-语言-动作大模型（VLA + LLM）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;用大语言模型来记忆语义信息，用文本/概念来做记忆，而不是用几何框做记忆。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;方向二：混合记忆架构&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;对动态物体用高效的Sparse Query，同时维护一个低分辨率的Dense BEV/Occupancy记忆网格作为兜底。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十总结&#34;&gt;十、总结&#xA;&lt;/h2&gt;&lt;p&gt;《Don&amp;rsquo;t Shake the Wheel》这篇论文极其精准地抓住了端到端自动驾驶&amp;quot;缺乏时序一致性&amp;quot;的命门：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;TTM（豪斯多夫拓扑匹配）&lt;/strong&gt;：保证动作的连贯&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;MPI（交叉注意力记忆融合）&lt;/strong&gt;：拓展视野的深度&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;TPC新指标&lt;/strong&gt;：重新定义什么是&amp;quot;好&amp;quot;的自动驾驶&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;通过&amp;quot;Query与特征的强制二次校验（架构）&amp;quot; + &amp;ldquo;加噪与阻断（训练策略）&amp;quot;，在保证轨迹平滑的同时，保住了模型对突发危险的敬畏之心。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;下一次，当你坐在一辆变道丝滑、转弯稳当的自动驾驶汽车里时，它的算法底层，或许就闪烁着这种&amp;quot;动量感知（Momentum-Aware）&amp;ldquo;的智慧光芒！&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十一深度追问只输入历史环境特征能避免捷径学习吗&#34;&gt;十一、深度追问：只输入历史环境特征能避免捷径学习吗？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;一个极具诱惑力的假设&#34;&gt;一个极具诱惑力的假设&#xA;&lt;/h3&gt;&lt;p&gt;既然输入历史轨迹或历史运动状态都会导致模型走捷径，那是不是意味着：&lt;strong&gt;我不直接输入历史的轨迹结果，也不输入历史的运动状态，只输入历史的环境特征，就不会导致模型走捷径的行为？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;这是一个非常敏锐的假设，逻辑看似完美：既然网络是个&amp;quot;偷懒的作弊狂&amp;rdquo;，那我干脆把&amp;quot;答案（历史轨迹）&amp;ldquo;和&amp;quot;公式（历史物理速度）&amp;ldquo;全给它藏起来，只给它看&amp;quot;历史风景（环境特征）&amp;quot;，逼着它每一帧都自己重新做题，这样不就能彻底根治&amp;quot;捷径学习（Shortcut Learning）&amp;ldquo;了吗？&lt;/p&gt;&#xA;&lt;h3 id=&#34;残酷的真相神经网络依然有-100-种方法找到捷径&#34;&gt;残酷的真相：神经网络依然有 100 种方法找到捷径！&#xA;&lt;/h3&gt;&lt;p&gt;即使只输入历史的环境特征，神经网络依然能找到隐蔽的作弊路径：&lt;/p&gt;&#xA;&lt;h4 id=&#34;捷径一化身视觉里程计反向推导隐藏数据&#34;&gt;捷径一：化身&amp;quot;视觉里程计&amp;rdquo;，反向推导隐藏数据&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;作弊手法：&lt;/strong&gt; 当你把 $t-1$ 和 $t-2$ 的环境特征（周围的树木、静止的建筑物、车道线）喂给模型时，网络内部的 Self-Attention 或 3D 卷积会瞬间计算出这些静态物体在相邻两帧之间的&lt;strong&gt;像素位移&lt;/strong&gt;。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;物理学的降维打击：&lt;/strong&gt; 如果一棵树在 0.1 秒内向后移动了 1 米，网络根本不需要你告诉它速度，它自己就能计算出&amp;quot;自车速度是 10 m/s，且没有打方向盘&amp;rdquo;。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;最终结果：&lt;/strong&gt; 网络在几层隐藏层之后，&lt;strong&gt;原封不动地把你辛苦藏起来的&amp;quot;自车历史状态和轨迹&amp;quot;重新还原了出来&lt;/strong&gt;！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;捷径二患上领头羊依赖症&#34;&gt;捷径二：患上&amp;quot;领头羊依赖症&amp;rdquo;&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;作弊手法：&lt;/strong&gt; 训练数据集里，绝大部分时间车都是在跟车行驶。网络发现：&lt;strong&gt;&amp;ldquo;我只要死死咬住正前方那辆车，它的位置就是我的轨迹！&amp;rdquo;&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;致命灾难：&lt;/strong&gt; 一旦前车是个闯红灯的疯子，你的模型会因为极度依赖&amp;quot;前车环境特征&amp;quot;而毫无判断力地跟上去，直接车毁人亡。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;捷径三静态环境假象导致的感知休眠&#34;&gt;捷径三：&amp;ldquo;静态环境假象&amp;quot;导致的感知休眠&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;作弊手法：&lt;/strong&gt; 网络发现 $t-1$ 的环境和 $t$ 的环境有 99% 是一模一样的，何必费劲去处理当前帧的那 1% 的变化？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;致命灾难：&lt;/strong&gt; 这就是为什么很多只输入环境特征的模型，在遇到&amp;quot;鬼探头&amp;quot;时反应总是慢半拍。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;核心结论&#34;&gt;核心结论&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;解决因果混淆，不能靠&amp;quot;堵（隐藏信息）&amp;quot;，只能靠&amp;quot;疏（机制约束）&amp;ldquo;和&amp;quot;骗（对抗训练）&amp;quot;！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;只要输入序列包含时间维度，神经网络就一定能复原出物理运动学捷径。因此，现代端到端自动驾驶的哲学已经变成了：&lt;strong&gt;我不怕你知道历史，我怕你沉迷历史。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十二cross-attention-的数学本质为什么当前为主历史为辅&#34;&gt;十二、Cross-Attention 的数学本质：为什么&amp;quot;当前为主，历史为辅&amp;rdquo;？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;权力的游戏谁掌握-query谁就掌握生杀大权&#34;&gt;权力的游戏：谁掌握 Query，谁就掌握&amp;quot;生杀大权&amp;rdquo;&#xA;&lt;/h3&gt;&lt;p&gt;在 Cross-Attention 的公式中：&#xA;$$Attention(Q, K, V) = Softmax(\frac{Q K^T}{\sqrt{d}}) V$$&lt;/p&gt;&#xA;&lt;p&gt;这三个字母的地位是&lt;strong&gt;绝对不平等&lt;/strong&gt;的：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;Query (Q) 是&amp;quot;带资进组的甲方/大老板&amp;rdquo;&lt;/strong&gt;：它是主动方，带着当下的需求去数据库里发起检索。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Key (K) 和 Value (V) 是&amp;quot;被动的资料库/顾问&amp;quot;&lt;/strong&gt;：它们只能安静地躺在那里，等待被点名。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;在 MomAD 的架构中：&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;当前帧提取的初筛意图 = Query (大老板)&lt;/strong&gt;：代表&amp;quot;我此时此刻眼前看到的战况&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;历史意图 = Key/Value (历史顾问)&lt;/strong&gt;：代表&amp;quot;我过去几秒钟的惯性和计划&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;致命对比如果用-concat-或-add-会怎样&#34;&gt;致命对比：如果用 Concat 或 Add 会怎样？&#xA;&lt;/h3&gt;&lt;p&gt;假设网络设计为：&lt;code&gt;最终特征 = MLP(当前特征 + 历史特征)&lt;/code&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;网络的作弊手段：&lt;/strong&gt; 网络会在 MLP 权重矩阵里，给&amp;quot;当前特征&amp;quot;分配极低权重（$0.01$），给&amp;quot;历史特征&amp;quot;分配极高权重（$0.99$）。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;灾难结果：&lt;/strong&gt; 不管当前帧发生什么，历史惯性都会强行碾压当前视觉，这就是典型的&lt;strong&gt;捷径学习&lt;/strong&gt;。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;Cross-Attention 凭什么能防作弊？&lt;/strong&gt;&#xA;因为它的融合是&lt;strong&gt;乘法约束（Dot Product $Q \cdot K^T$）&lt;/strong&gt;，而不是加法线性组合！&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;如果当前帧 $Q$ 看到前方空旷，历史 $K$ 也是直行，内积很大，历史 $V$ 被顺利吸收。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;关键时刻：&lt;/strong&gt; 如果当前帧 $Q$ 突然看到窜出来的行人，大老板 $Q$ 的特征向量会瞬间变成&amp;quot;紧急避让&amp;quot;。此时，&amp;ldquo;紧急避让的 $Q$&amp;rdquo; 和&amp;quot;历史直行的 $K$&amp;quot; 方向完全不一致，它们的&lt;strong&gt;内积会接近于 0&lt;/strong&gt;！&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;物理绞杀：&lt;/strong&gt; 经过 Softmax 后，这个历史顾问的权重会被&lt;strong&gt;死死地压在 $0.00001$&lt;/strong&gt;，历史信息直接被乘法&lt;strong&gt;物理清零&lt;/strong&gt;！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;反向作死实验如果把历史作为-query-会怎样&#34;&gt;反向作死实验：如果把&amp;quot;历史&amp;quot;作为 Query 会怎样？&#xA;&lt;/h3&gt;&lt;p&gt;这被称为**&amp;ldquo;确认偏误的架构放大器&amp;rdquo;**！&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;历史（大老板）拿着&amp;quot;左转&amp;quot;的 $Q$，去当前帧的画面里&lt;strong&gt;死抠&lt;/strong&gt;能支持它左转的证据。&lt;/li&gt;&#xA;&lt;li&gt;哪怕当前画面里有一辆大卡车挡住了左转道，历史 $Q$ 也会对大卡车视而不见，只把注意力放在远处的左转红绿灯上，最终导致直接撞上卡车。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十三模型的走捷径方法讨论&#34;&gt;十三、模型的走捷径方法讨论&#xA;&lt;/h2&gt;&lt;h4 id=&#34;问题&#34;&gt;问题&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;有没有可能模型让当前帧的 Query变成一个无脑接受历史信息的傀儡，从而实现拷贝历史的捷径 ？&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;答案&#34;&gt;答案&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;Cross-Attention机制下理论上不可行。因为为了让V完全被采纳，我们需要构造出一个和历史K的内积为单位阵的Q，但是我们在构造当前帧的Q时，没有提供任何关于历史的信息，所以它没办法和历史K“串供”。所以理论上通过Cross-Attention去融合历史信息是可以防止模型走捷径照抄历史的。&lt;/li&gt;&#xA;&lt;li&gt;但是如果是通过concat和mlp去获取历史信息，模型只需要把mlp网络中对应到历史信息的那部分权重调到0.99即可。所以concat+mlp是个很糟糕的融合历史的设计，很容易让模型走捷径。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十四为什么-dropout-和扰动仍然必不可少&#34;&gt;十四、为什么 Dropout 和扰动仍然必不可少？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;高级偷懒法基于统计先验的盲猜串供&#34;&gt;高级偷懒法：基于统计先验的&amp;quot;盲猜串供&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;虽然 Cross-Attention 切断了 Q 提前看 K 的通道，但模型发现一个宇宙级统计规律：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;自动驾驶的长尾诅咒：&lt;/strong&gt; 汽车 95% 的时间都在沿着车道线匀速直行。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;K 的高度同质化：&lt;/strong&gt; 95% 的训练样本里，历史 $K$ 长得几乎一模一样（都是&amp;quot;直行&amp;quot;向量）。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Q 的终极摆烂策略：&lt;/strong&gt; 把所有 $Q$ 都无脑映射成能和&amp;quot;直行K&amp;quot;完美匹配的形状，不就能拿 95% 的高分吗？&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;这叫&amp;quot;没有串供，但达成了默契&amp;quot;。&lt;/strong&gt; 这种偷懒比直接改 MLP 权重更难被发现！&lt;/p&gt;&#xA;&lt;h3 id=&#34;为什么必须上酷刑&#34;&gt;为什么必须上&amp;quot;酷刑&amp;quot;？&#xA;&lt;/h3&gt;&lt;p&gt;既然 Cross-Attention 无法阻止模型利用统计先验&amp;quot;盲猜&amp;quot;，就必须动用物理手段（拔网线和给历史下毒），&lt;strong&gt;打破这个 95% 的稳定预期&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;h4 id=&#34;第一道金牌信息隔离墙不准串供&#34;&gt;第一道金牌：信息隔离墙（不准串供）&#xA;&lt;/h4&gt;&lt;p&gt;在生成当前候选 Query 时，&lt;strong&gt;网络绝对接触不到历史状态&lt;/strong&gt;！它只能从当前帧的图像像素里提特征，强行生成一组代表当前意图的 Query。只有当这组无法作弊的 Query 生成完毕后，大门才打开，让它去和历史做 Cross-Attention。&lt;/p&gt;&#xA;&lt;h4 id=&#34;第二道金牌历史-dropout拔网线&#34;&gt;第二道金牌：历史 Dropout（拔网线）&#xA;&lt;/h4&gt;&lt;p&gt;对付&amp;quot;摸鱼大师&amp;quot;最好的办法，就是时不时抽查它的真本事。&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在训练迭代中，设置一个概率（比如 30%），强行把传入的历史特征（Key 和 Value）全部清零。&lt;/li&gt;&#xA;&lt;li&gt;当网络正准备&amp;quot;无脑抱历史大腿&amp;quot;时，突然发现大腿没了！Loss 直接爆炸。&lt;/li&gt;&#xA;&lt;li&gt;为了在&amp;quot;断电时刻&amp;quot;活下来，网络&lt;strong&gt;被迫&lt;/strong&gt;疯狂压榨当前帧的图像编码器，让它必须具备极强的单帧看路能力。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;第三道金牌给历史下毒momad-的灵魂robust-instance-denoising&#34;&gt;第三道金牌：给历史&amp;quot;下毒&amp;quot;（MomAD 的灵魂——Robust Instance Denoising）&#xA;&lt;/h4&gt;&lt;p&gt;既然网络喜欢&amp;quot;无脑信任历史&amp;quot;，那我就&lt;strong&gt;故意让历史变得不可信&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在训练阶段，给输入的特征人为加上&lt;strong&gt;高斯噪声&lt;/strong&gt;。&lt;/li&gt;&#xA;&lt;li&gt;假设上一帧真实情况是&amp;quot;直行&amp;quot;，但扰动让历史顾问传递出&amp;quot;我要向左猛打方向盘&amp;quot;的错觉信号。&lt;/li&gt;&#xA;&lt;li&gt;网络经过成千上万次&amp;quot;受骗&amp;quot;与&amp;quot;惩罚&amp;quot;，终于悟出：&lt;strong&gt;&amp;ldquo;历史顾问经常发神经，我必须坚决相信我这双眼睛看到的真相！&amp;rdquo;&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十五终局总结架构防小人训练防懒汉&#34;&gt;十五、终局总结：架构防&amp;quot;小人&amp;quot;，训练防&amp;quot;懒汉&amp;quot;&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;防御层级&lt;/th&gt;&#xA;          &lt;th&gt;方法&lt;/th&gt;&#xA;          &lt;th&gt;防住什么&lt;/th&gt;&#xA;          &lt;th&gt;防不住什么&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Concat + MLP&lt;/td&gt;&#xA;          &lt;td&gt;无防御&lt;/td&gt;&#xA;          &lt;td&gt;-&lt;/td&gt;&#xA;          &lt;td&gt;一切捷径&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Cross-Attention (只用架构)&lt;/td&gt;&#xA;          &lt;td&gt;关上了串供的门&lt;/td&gt;&#xA;          &lt;td&gt;直接改参数躺平&lt;/td&gt;&#xA;          &lt;td&gt;统计先验盲猜&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Cross-Attention + Dropout + 扰动&lt;/td&gt;&#xA;          &lt;td&gt;关门 + 放狗 + 拆门&lt;/td&gt;&#xA;          &lt;td&gt;几乎所有捷径&lt;/td&gt;&#xA;          &lt;td&gt;-&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;真正的护城河是组合拳：&lt;/strong&gt;&#xA;&lt;strong&gt;物理隔离（不能提前偷看）+ 拔网线（History Dropout）+ 钓鱼执法（加噪声微扰）。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;这三招齐下，才把端到端自动驾驶网络，从一个&amp;quot;只会复读的录音机&amp;quot;，逼成了一个&amp;quot;既懂历史规律、又对当下极其警惕的老司机&amp;quot;！&lt;/p&gt;&#xA;</description>
        </item></channel>
</rss>
