<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>动量感知 on 朝花夕拾</title>
        <link>https://example.org/tags/%E5%8A%A8%E9%87%8F%E6%84%9F%E7%9F%A5/</link>
        <description>Recent content in 动量感知 on 朝花夕拾</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <lastBuildDate>Tue, 17 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://example.org/tags/%E5%8A%A8%E9%87%8F%E6%84%9F%E7%9F%A5/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>MomAD: Momentum-Aware Planning in End-to-End Autonomous Driving</title>
            <link>https://example.org/post/robotics/e2e/mom-ad/</link>
            <pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/e2e/mom-ad/</guid>
            <description>&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;论文标题：《Don&amp;rsquo;t Shake the Wheel: Momentum-Aware Planning in End-to-End Autonomous Driving》&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;一这篇论文在讲什么&#34;&gt;一、这篇论文在讲什么？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心问题ai司机的帕金森式哆嗦&#34;&gt;核心问题：AI司机的&amp;quot;帕金森式哆嗦&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;光看标题脑海里是不是就有画面了？没错，这篇论文解决的就是自动驾驶汽车**&amp;ldquo;疯狂画龙&amp;rdquo;、&amp;ldquo;方向盘乱抖&amp;rdquo;**的痛点！&lt;/p&gt;&#xA;&lt;p&gt;现在的端到端自动驾驶模型（如UniAD、VAD等）存在一个致命弱点：&lt;strong&gt;&amp;ldquo;单帧依赖（One-shot prediction）&amp;rdquo;&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;p&gt;这就像一个新手司机，每开一秒钟都要重新做一次决定，完全不管上一秒自己是怎么想的。如果遇到短暂的视野遮挡（比如旁边大车挡了一下），或者感知模块稍微闪烁了一下，它就会立刻改变主意，导致车辆轨迹疯狂摇摆（Vehicle Trembling）。&lt;/p&gt;&#xA;&lt;h3 id=&#34;figure-1-的直观对比&#34;&gt;Figure 1 的直观对比&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;规划模式&lt;/th&gt;&#xA;          &lt;th&gt;问题表现&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;确定性规划（a）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;只给一条路，遇到突发情况容易撞&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;多模态规划（b）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;给很多条路让你选，但每一帧都在不同轨迹间横跳，导致方向盘乱打&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;MomAD方案&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;用&amp;quot;动量&amp;quot;保持轨迹连贯性，同时保留多模态应对突发情况&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;核心洞察老司机的动量智慧&#34;&gt;核心洞察：老司机的&amp;quot;动量&amp;quot;智慧&#xA;&lt;/h3&gt;&lt;p&gt;人类老司机是怎么开车的？是有&amp;quot;惯性&amp;quot;和&amp;quot;动量&amp;quot;的！我们不会因为别人闪了一下大灯就猛打方向盘，我们会根据之前的行驶意图保持连贯性。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;MomAD就是要赋予AI这种&amp;quot;老司机&amp;quot;的稳重感。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;二核心方法momad的三大法宝&#34;&gt;二、核心方法：MomAD的三大法宝&#xA;&lt;/h2&gt;&lt;p&gt;MomAD框架是怎么做到&amp;quot;稳如老狗&amp;quot;的？核心在于三大技术模块：&lt;/p&gt;&#xA;&lt;h3 id=&#34;法宝一拓扑轨迹匹配ttm---topological-trajectory-matching&#34;&gt;法宝一：拓扑轨迹匹配（TTM - Topological Trajectory Matching）&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;核心目标&lt;/strong&gt;：在K个候选轨迹中，找出一个跟上一帧意图最&amp;quot;顺滑&amp;quot;衔接的轨迹。&lt;/p&gt;&#xA;&lt;h4 id=&#34;1-坐标系转换&#34;&gt;1. 坐标系转换&#xA;&lt;/h4&gt;&lt;p&gt;因为车一直在往前开，前一帧和当前帧的坐标系不一样了。TTM第一步就是把历史轨迹转换到当前的自车坐标系下：&lt;/p&gt;&#xA;&lt;p&gt;$$T_{past_aligned} = R^{-1}(T_{past} - \Gamma)$$&lt;/p&gt;&#xA;&lt;p&gt;其中 $R^{-1}$ 是旋转矩阵的逆，$\Gamma$ 是位移向量。&lt;/p&gt;&#xA;&lt;h4 id=&#34;2-为什么不用简单的欧式距离&#34;&gt;2. 为什么不用简单的欧式距离？&#xA;&lt;/h4&gt;&lt;p&gt;很多模型比对轨迹时用的是欧氏距离（按点算距离），但这玩意儿在过弯道时极其不准，容易被局部干扰。&lt;/p&gt;&#xA;&lt;h4 id=&#34;3-引入豪斯多夫距离hausdorff-distance&#34;&gt;3. 引入豪斯多夫距离（Hausdorff Distance）&#xA;&lt;/h4&gt;&lt;p&gt;TTM祭出了这个大杀器！豪斯多夫距离测量的是两条轨迹间&lt;strong&gt;最大偏差的最小值&lt;/strong&gt;（最坏情况下的对齐程度）。&lt;/p&gt;&#xA;&lt;p&gt;$$d_H(T_a, T_b) = \max{d_{forward}(T_a, T_b), d_{backward}(T_b, T_a)}$$&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;生动比喻&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;豪斯多夫距离不仅看两个点离得近不近，更看整个轨迹的&amp;quot;形状（拓扑结构）&amp;ldquo;像不像。这就像比对两条弯曲的山路，不是看某个点对齐没，而是看整体走势是否吻合。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;通过豪斯多夫距离，TTM选出那条和历史轨迹最吻合的当前候选轨迹。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;法宝二动量规划交互器mpi---momentum-planning-interactor&#34;&gt;法宝二：动量规划交互器（MPI - Momentum Planning Interactor）&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;核心目标&lt;/strong&gt;：光选出来还不够，还要把历史的&amp;quot;经验（动量）&amp;ldquo;注入到当前的Query中。&lt;/p&gt;&#xA;&lt;h4 id=&#34;子模块a长时序查询混合器long-horizon-query-mixer&#34;&gt;子模块A：长时序查询混合器（Long-horizon Query Mixer）&#xA;&lt;/h4&gt;&lt;p&gt;它把历史的规划Query取出来，通过多层感知机（MLP）和**LSTM（长短期记忆网络）**进行时序演化：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 用Sigmoid处理历史分数，并与历史Query做逐元素乘法（融合历史置信度）&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;historical_fusion &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sigmoid(S_past) &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;mlp_mixer(Q_past)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 用LSTM模拟时序上的演化&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;Q_past_prime, _ &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;lstm(historical_fusion&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;unsqueeze(&lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;))&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;这就像是把过去几秒钟的环境理解和别人车辆的意图&amp;quot;浓缩&amp;quot;了起来。&lt;/p&gt;&#xA;&lt;h4 id=&#34;子模块b交叉注意力融合&#34;&gt;子模块B：交叉注意力融合&#xA;&lt;/h4&gt;&lt;p&gt;用选中的当前Query作为主动方，去和浓缩好的历史信息做交叉注意力计算：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Q: 当前选出的最优 Query&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# K, V: 经过时序演化的历史 Query&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;Q_tilde_p_star_t, _ &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;cross_attention(&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Q_p_star_t,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Q_past_prime,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Q_past_prime&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;关键理解&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;当前帧只提供 &lt;code&gt;query&lt;/code&gt;（此刻我想怎么走），而 &lt;code&gt;key&lt;/code&gt; 和 &lt;code&gt;value&lt;/code&gt; 全是上一帧经过LSTM提纯的记忆（我过去几秒是怎么打算的）。这一步让模型长了&amp;quot;脑子&amp;rdquo;，不再是只会看眼前的金鱼记忆！&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;法宝三鲁棒实例去噪robust-instance-denoising&#34;&gt;法宝三：鲁棒实例去噪（Robust Instance Denoising）&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;核心目标&lt;/strong&gt;：锻炼模型对感知噪声的抵抗能力。&lt;/p&gt;&#xA;&lt;p&gt;既然感知模块提供的特征（比如其他车的位置、车道线）可能不准，那就在训练时&amp;quot;折磨&amp;quot;它！&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 训练期间加入高斯噪声扰动&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;if&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;training &lt;span style=&#34;color:#f92672&#34;&gt;and&lt;/span&gt; self&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;use_noise:&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    noise &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;randn_like(features_t) &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;0.1&lt;/span&gt;  &lt;span style=&#34;color:#75715e&#34;&gt;# 论文消融实验中噪声比例为0.1最优&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    features_t &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; features_t &lt;span style=&#34;color:#f92672&#34;&gt;+&lt;/span&gt; noise&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;作用机制&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;让模型在训练时就习惯看&amp;quot;模糊、抖动&amp;quot;的世界。在测试时，这个去噪能力让规划预测器对环境波动极度免疫，即使遇到临时遮挡或漏检，依然能画出平滑的轨迹。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;三全新标尺怎么量化稳不稳&#34;&gt;三、全新标尺：怎么量化&amp;quot;稳不稳&amp;rdquo;？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;传统指标的局限性&#34;&gt;传统指标的局限性&#xA;&lt;/h3&gt;&lt;p&gt;以前的评价指标只看&amp;quot;当前帧准不准&amp;quot;，不看&amp;quot;前后帧连不连贯&amp;quot;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;tpc轨迹预测一致性定义&#34;&gt;TPC（轨迹预测一致性）定义&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;轨迹预测一致性（Trajectory Prediction Consistency）&lt;/strong&gt;：在重叠的时间段内，计算&amp;quot;当前预测的轨迹&amp;quot;和&amp;quot;上一帧预测的轨迹&amp;quot;之间的平方差，然后再用真实的验证集轨迹做掩码过滤。&lt;/p&gt;&#xA;&lt;p&gt;$$TPC = \frac{1}{N}\sum_{t}||T_{pred}^{t} - T_{pred}^{t-1}||^2 \cdot Mask$$&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;TPC越低，说明车开得越平顺，乘客越不容易晕车！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;四狂飙的成绩单&#34;&gt;四、狂飙的成绩单&#xA;&lt;/h2&gt;&lt;h3 id=&#34;41-首创弯道数据集turning-nuscenes&#34;&gt;4.1 首创&amp;quot;弯道数据集（Turning-nuScenes）&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;作者发现原来的nuScenes数据集里直道太多了，看不出谁更稳。于是专门把&amp;quot;转弯&amp;quot;的场景挑出来做测试（转弯最容易方向盘发抖）。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;惊人数据（Table 3）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;预测未来6秒的轨迹，MomAD相比之前的SOTA模型（SparseDrive），&lt;strong&gt;碰撞率暴降了26%&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;TPC指标大幅优化了&lt;strong&gt;0.97米（提升33.45%）&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;42-长时间预测远超同行&#34;&gt;4.2 长时间预测远超同行&#xA;&lt;/h3&gt;&lt;p&gt;预测1-2秒不算啥，预测4-6秒还能保持稳定才叫牛。随着时间拉长，其他模型误差飙升，而MomAD依然保持着极高的平滑度。&lt;/p&gt;&#xA;&lt;h3 id=&#34;43-闭环路测bench2drive&#34;&gt;4.3 闭环路测（Bench2Drive）&#xA;&lt;/h3&gt;&lt;p&gt;在CARLA模拟器里跑闭环（Table 4），包含超车、避让等44个交互场景：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;成功率提高了惊人的16.3%&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;舒适度提升了&lt;strong&gt;7.2%&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;44-消融实验亮点&#34;&gt;4.4 消融实验亮点&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;历史帧数消融（Table 7）&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;历史帧不是越多越好。作者发现融合前 $t=2$ 帧的历史信息时，效果达到巅峰；如果融合 $t=3$ 帧，反而因为历史太久远引入了不确定性，导致效果下降。&lt;strong&gt;这叫&amp;quot;恰到好处的记忆&amp;quot;&lt;/strong&gt;。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;&lt;strong&gt;噪声注入消融（Table 6）&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;加了Robust Instance Denoising模块后性能稳步提升，验证了训练时加噪对抵抗感知闪烁的有效性。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;五深度讨论历史意图引入的因果混淆陷阱&#34;&gt;五、深度讨论：历史意图引入的&amp;quot;因果混淆&amp;quot;陷阱&#xA;&lt;/h2&gt;&lt;h3 id=&#34;一个极其犀利的专家级问题&#34;&gt;一个极其犀利的专家级问题&#xA;&lt;/h3&gt;&lt;p&gt;引入历史意图（也就是上一帧的Query或者轨迹）虽然能让车开得&amp;quot;稳&amp;quot;，但如果不加限制，模型会变成一个&amp;quot;闭着眼睛开车的瞎子&amp;quot;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;三大致命因果混淆陷阱&#34;&gt;三大致命因果混淆陷阱&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;陷阱&lt;/th&gt;&#xA;          &lt;th&gt;现象&lt;/th&gt;&#xA;          &lt;th&gt;灾难后果&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;因果倒置（惯性覆盖）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&amp;ldquo;上一秒我在直行 → 所以这一秒我继续直行&amp;rdquo;&lt;/td&gt;&#xA;          &lt;td&gt;无视前方突然出现的外卖小哥，直接撞上去&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;捷径退化（恒等映射）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;网络发现直接复制上一帧输出Loss就够低&lt;/td&gt;&#xA;          &lt;td&gt;感知模块退化，变成只会根据昨天猜今天的时间序列外推器&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;误差雪球（蝴蝶效应）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;第1帧的小误判被后续帧不断放大&lt;/td&gt;&#xA;          &lt;td&gt;即使视野恢复清晰，模型也因为历史执念拉不回来&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;momad的破局之道&#34;&gt;MomAD的破局之道&#xA;&lt;/h3&gt;&lt;h4 id=&#34;1-架构约束用交叉注意力逼迫模型看路&#34;&gt;1. 架构约束：用交叉注意力逼迫模型&amp;quot;看路&amp;quot;&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;历史意图（提纯后的 $Q_{past}$）作为&lt;strong&gt;Key和Value&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;当前帧的初筛意图作为&lt;strong&gt;Query&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;融合后的Query必须再和当前帧最新的感知实例特征（$F_{ins}$）做二次深度融合&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;原理&lt;/strong&gt;：历史只提供&amp;quot;底色&amp;quot;，生杀大权依然牢牢掌握在当前帧的感知特征手里。&lt;/p&gt;&#xA;&lt;h4 id=&#34;2-训练秘籍历史dropout&#34;&gt;2. 训练秘籍：历史Dropout&#xA;&lt;/h4&gt;&lt;p&gt;随机以一定概率把历史意图置为空，强制模型只凭当前帧的单帧图像去做规划。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;原理&lt;/strong&gt;：斩断捷径，让网络明白&amp;quot;不能总是指望抄前一秒的作业&amp;quot;。&lt;/p&gt;&#xA;&lt;h4 id=&#34;3-施加微扰打破舒适区&#34;&gt;3. 施加微扰：打破舒适区&#xA;&lt;/h4&gt;&lt;p&gt;Robust Instance Denoising实际上是一种&lt;strong&gt;因果干预&lt;/strong&gt;，告诉模型要在噪声和历史之间找到真正的因果平衡点。&lt;/p&gt;&#xA;&lt;h4 id=&#34;4-终极验证闭环评测&#34;&gt;4. 终极验证：闭环评测&#xA;&lt;/h4&gt;&lt;p&gt;如果模型严重因果混淆，在闭环里不出10秒就会撞树。MomAD在Bench2Drive闭环测试中成功率提升16.3%，是克服因果混淆的最硬核证据。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;六为什么在query层面融合历史&#34;&gt;六、为什么在&amp;quot;Query层面&amp;quot;融合历史？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;问题本质&#34;&gt;问题本质&#xA;&lt;/h3&gt;&lt;p&gt;为什么MomAD选择融合历史Query，而不是直接把前后两帧的感知实例（几十个框）融合在一起？&lt;/p&gt;&#xA;&lt;h3 id=&#34;直接融合感知实例的三大致命问题&#34;&gt;直接融合感知实例的三大致命问题&#xA;&lt;/h3&gt;&lt;h4 id=&#34;1-目标关联灾难&#34;&gt;1. 目标关联灾难&#xA;&lt;/h4&gt;&lt;p&gt;如果把 $t-1$ 帧和 $t$ 帧的实例特征直接堆叠，网络怎么知道上一帧的&amp;quot;框A&amp;quot;和这一帧的&amp;quot;框B&amp;quot;是同一辆车？&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;MomAD的高明之处&lt;/strong&gt;：不在&amp;quot;环境（框）&amp;ldquo;层面做跨帧融合，而在&amp;quot;自我意图&amp;quot;层面做融合，巧妙地绕开了显式的多目标跟踪难题。&lt;/p&gt;&#xA;&lt;h4 id=&#34;2-信息过载与模式崩溃&#34;&gt;2. 信息过载与模式崩溃&#xA;&lt;/h4&gt;&lt;p&gt;把太多原始的环境特征直接丢给Planning Head，网络往往偷懒：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;学会直接忽略历史特征，退化回单帧模型&lt;/li&gt;&#xA;&lt;li&gt;或者预测出不左不右、直接撞墙的&amp;quot;平均轨迹&amp;rdquo;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;MomAD通过TTM强制进行&amp;quot;信息漏斗&amp;quot;过滤：只把&amp;quot;你上一秒最想干的那件事&amp;quot;通过Query塞进去。&lt;/p&gt;&#xA;&lt;h4 id=&#34;3-缺乏主观动量&#34;&gt;3. 缺乏&amp;quot;主观动量&amp;quot;&#xA;&lt;/h4&gt;&lt;p&gt;动量是属于主体的，不是属于环境的。只有交互历史Query，网络才能记住&amp;quot;我原本打算干什么&amp;quot;。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;七交叉注意力的工作机制&#34;&gt;七、交叉注意力的工作机制&#xA;&lt;/h2&gt;&lt;h3 id=&#34;信息流动全景图&#34;&gt;信息流动全景图&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;当前Query（我想怎么走）&#xA;    --查询--&amp;gt; 历史Key/Value（我过去怎么打算）&#xA;         ↓&#xA;    融合后的Query（吸收历史动量的&amp;#34;金丹&amp;#34;）&#xA;         ↓&#xA;    结合当前感知特征(F_ins)&#xA;         ↓&#xA;    Planning Head再次裂变，输出K条多模态轨迹&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;关键理解&#34;&gt;关键理解&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;被选中的Query是一个&amp;quot;时空锚点&amp;quot;&lt;/strong&gt;，代表的是&amp;quot;自车当前最稳定、最符合物理惯性的综合运动状态&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;&amp;ldquo;一生万物&amp;quot;的多模态再生&lt;/strong&gt;：这唯一一个被历史记忆开过光的Query，在和实例特征结合后，会再次裂变输出K条多模态轨迹。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;八潜在的失败模式&#34;&gt;八、潜在的失败模式&#xA;&lt;/h2&gt;&lt;h3 id=&#34;模式一稀疏表示的先天不足信息漏斗带来的强制失忆&#34;&gt;模式一：稀疏表示的&amp;quot;先天不足&amp;rdquo;——信息漏斗带来的强制失忆&#xA;&lt;/h3&gt;&lt;p&gt;稀疏Query架构的本质是一个&amp;quot;极度势利的安检员&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;预定义本体的诅咒&lt;/strong&gt;：模型在设计之初，工程师会给它规定好能提取几类Query（车辆、行人、自行车、车道线、斑马线）。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;边缘场景灾难&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;当空中指示牌出现在画面里时，因为&amp;quot;空中指示牌的文字和状态&amp;quot;不在预定义的Query类别里，这个&amp;quot;安检员&amp;quot;把它当作垃圾扔掉了&lt;/li&gt;&#xA;&lt;li&gt;越过指示牌后，历史记忆中根本不存在&amp;quot;刚才有个牌子&amp;quot;这件事&lt;/li&gt;&#xA;&lt;li&gt;Planning Head完全不知道这是一条特定时段只能左转的可变车道&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;模式二稀疏实例特征的材质丢失&#34;&gt;模式二：稀疏实例特征的材质丢失&#xA;&lt;/h3&gt;&lt;p&gt;$F_{ins}$ 虽然是一个256维的隐式特征向量（包含纹理、反光度、边缘锐利度等信息），但：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;如果图像分辨率不够，或夜间噪点大，Deformable Attention没采样准&lt;/li&gt;&#xA;&lt;li&gt;砖块和塑料袋的256维特征就会混淆&lt;/li&gt;&#xA;&lt;li&gt;出于安全保守策略，自动驾驶车大概率会选择急刹或猛打方向盘避让那个塑料袋&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这就是&lt;strong&gt;幽灵刹车&lt;/strong&gt;问题的根源。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;九行业趋势与未来方向&#34;&gt;九、行业趋势与未来方向&#xA;&lt;/h2&gt;&lt;h3 id=&#34;从空间单帧感知到时空连续决策的跨越&#34;&gt;从&amp;quot;空间单帧感知&amp;quot;到&amp;quot;时空连续决策&amp;quot;的跨越&#xA;&lt;/h3&gt;&lt;h4 id=&#34;四大解题流派&#34;&gt;四大解题流派&#xA;&lt;/h4&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;流派&lt;/th&gt;&#xA;          &lt;th&gt;代表作&lt;/th&gt;&#xA;          &lt;th&gt;核心思想&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;流式架构&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;StreamPETR, SparseDrive&lt;/td&gt;&#xA;          &lt;td&gt;不存庞大的图像特征，只存上一帧&amp;quot;提纯后的结果&amp;quot;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;世界模型&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;GAIA-1, MILE, DriveDreamer&lt;/td&gt;&#xA;          &lt;td&gt;不仅预测方向盘和油门，还逼着预测未来的世界长什么样&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;反事实推断&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;基于CARLA的闭环端到端&lt;/td&gt;&#xA;          &lt;td&gt;故意把车推向危险边缘，看模型怎么救回来&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;4D占据栅格&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;OccNet, UniOcc&lt;/td&gt;&#xA;          &lt;td&gt;在3D体素空间里加上时间维度，预测场景流&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;终极前沿mamba状态空间模型&#34;&gt;终极前沿：Mamba（状态空间模型）&#xA;&lt;/h3&gt;&lt;p&gt;比Transformer更适合处理无限长序列：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;Transformer算注意力机制，时间序列越长，算力呈 $O(N^2)$ 爆炸&lt;/li&gt;&#xA;&lt;li&gt;Mamba可以在保持恒定显存占用的情况下，将历史感受野拉长到过去几十上百帧&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;进化方向&#34;&gt;进化方向&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;方向一：视觉-语言-动作大模型（VLA + LLM）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;用大语言模型来记忆语义信息，用文本/概念来做记忆，而不是用几何框做记忆。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;方向二：混合记忆架构&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;对动态物体用高效的Sparse Query，同时维护一个低分辨率的Dense BEV/Occupancy记忆网格作为兜底。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十总结&#34;&gt;十、总结&#xA;&lt;/h2&gt;&lt;p&gt;《Don&amp;rsquo;t Shake the Wheel》这篇论文极其精准地抓住了端到端自动驾驶&amp;quot;缺乏时序一致性&amp;quot;的命门：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;TTM（豪斯多夫拓扑匹配）&lt;/strong&gt;：保证动作的连贯&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;MPI（交叉注意力记忆融合）&lt;/strong&gt;：拓展视野的深度&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;TPC新指标&lt;/strong&gt;：重新定义什么是&amp;quot;好&amp;quot;的自动驾驶&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;通过&amp;quot;Query与特征的强制二次校验（架构）&amp;quot; + &amp;ldquo;加噪与阻断（训练策略）&amp;quot;，在保证轨迹平滑的同时，保住了模型对突发危险的敬畏之心。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;下一次，当你坐在一辆变道丝滑、转弯稳当的自动驾驶汽车里时，它的算法底层，或许就闪烁着这种&amp;quot;动量感知（Momentum-Aware）&amp;ldquo;的智慧光芒！&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十一深度追问只输入历史环境特征能避免捷径学习吗&#34;&gt;十一、深度追问：只输入历史环境特征能避免捷径学习吗？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;一个极具诱惑力的假设&#34;&gt;一个极具诱惑力的假设&#xA;&lt;/h3&gt;&lt;p&gt;既然输入历史轨迹或历史运动状态都会导致模型走捷径，那是不是意味着：&lt;strong&gt;我不直接输入历史的轨迹结果，也不输入历史的运动状态，只输入历史的环境特征，就不会导致模型走捷径的行为？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;这是一个非常敏锐的假设，逻辑看似完美：既然网络是个&amp;quot;偷懒的作弊狂&amp;rdquo;，那我干脆把&amp;quot;答案（历史轨迹）&amp;ldquo;和&amp;quot;公式（历史物理速度）&amp;ldquo;全给它藏起来，只给它看&amp;quot;历史风景（环境特征）&amp;quot;，逼着它每一帧都自己重新做题，这样不就能彻底根治&amp;quot;捷径学习（Shortcut Learning）&amp;ldquo;了吗？&lt;/p&gt;&#xA;&lt;h3 id=&#34;残酷的真相神经网络依然有-100-种方法找到捷径&#34;&gt;残酷的真相：神经网络依然有 100 种方法找到捷径！&#xA;&lt;/h3&gt;&lt;p&gt;即使只输入历史的环境特征，神经网络依然能找到隐蔽的作弊路径：&lt;/p&gt;&#xA;&lt;h4 id=&#34;捷径一化身视觉里程计反向推导隐藏数据&#34;&gt;捷径一：化身&amp;quot;视觉里程计&amp;rdquo;，反向推导隐藏数据&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;作弊手法：&lt;/strong&gt; 当你把 $t-1$ 和 $t-2$ 的环境特征（周围的树木、静止的建筑物、车道线）喂给模型时，网络内部的 Self-Attention 或 3D 卷积会瞬间计算出这些静态物体在相邻两帧之间的&lt;strong&gt;像素位移&lt;/strong&gt;。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;物理学的降维打击：&lt;/strong&gt; 如果一棵树在 0.1 秒内向后移动了 1 米，网络根本不需要你告诉它速度，它自己就能计算出&amp;quot;自车速度是 10 m/s，且没有打方向盘&amp;rdquo;。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;最终结果：&lt;/strong&gt; 网络在几层隐藏层之后，&lt;strong&gt;原封不动地把你辛苦藏起来的&amp;quot;自车历史状态和轨迹&amp;quot;重新还原了出来&lt;/strong&gt;！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;捷径二患上领头羊依赖症&#34;&gt;捷径二：患上&amp;quot;领头羊依赖症&amp;rdquo;&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;作弊手法：&lt;/strong&gt; 训练数据集里，绝大部分时间车都是在跟车行驶。网络发现：&lt;strong&gt;&amp;ldquo;我只要死死咬住正前方那辆车，它的位置就是我的轨迹！&amp;rdquo;&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;致命灾难：&lt;/strong&gt; 一旦前车是个闯红灯的疯子，你的模型会因为极度依赖&amp;quot;前车环境特征&amp;quot;而毫无判断力地跟上去，直接车毁人亡。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;捷径三静态环境假象导致的感知休眠&#34;&gt;捷径三：&amp;ldquo;静态环境假象&amp;quot;导致的感知休眠&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;作弊手法：&lt;/strong&gt; 网络发现 $t-1$ 的环境和 $t$ 的环境有 99% 是一模一样的，何必费劲去处理当前帧的那 1% 的变化？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;致命灾难：&lt;/strong&gt; 这就是为什么很多只输入环境特征的模型，在遇到&amp;quot;鬼探头&amp;quot;时反应总是慢半拍。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;核心结论&#34;&gt;核心结论&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;解决因果混淆，不能靠&amp;quot;堵（隐藏信息）&amp;quot;，只能靠&amp;quot;疏（机制约束）&amp;ldquo;和&amp;quot;骗（对抗训练）&amp;quot;！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;只要输入序列包含时间维度，神经网络就一定能复原出物理运动学捷径。因此，现代端到端自动驾驶的哲学已经变成了：&lt;strong&gt;我不怕你知道历史，我怕你沉迷历史。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十二cross-attention-的数学本质为什么当前为主历史为辅&#34;&gt;十二、Cross-Attention 的数学本质：为什么&amp;quot;当前为主，历史为辅&amp;rdquo;？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;权力的游戏谁掌握-query谁就掌握生杀大权&#34;&gt;权力的游戏：谁掌握 Query，谁就掌握&amp;quot;生杀大权&amp;rdquo;&#xA;&lt;/h3&gt;&lt;p&gt;在 Cross-Attention 的公式中：&#xA;$$Attention(Q, K, V) = Softmax(\frac{Q K^T}{\sqrt{d}}) V$$&lt;/p&gt;&#xA;&lt;p&gt;这三个字母的地位是&lt;strong&gt;绝对不平等&lt;/strong&gt;的：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;Query (Q) 是&amp;quot;带资进组的甲方/大老板&amp;rdquo;&lt;/strong&gt;：它是主动方，带着当下的需求去数据库里发起检索。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Key (K) 和 Value (V) 是&amp;quot;被动的资料库/顾问&amp;quot;&lt;/strong&gt;：它们只能安静地躺在那里，等待被点名。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;在 MomAD 的架构中：&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;当前帧提取的初筛意图 = Query (大老板)&lt;/strong&gt;：代表&amp;quot;我此时此刻眼前看到的战况&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;历史意图 = Key/Value (历史顾问)&lt;/strong&gt;：代表&amp;quot;我过去几秒钟的惯性和计划&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;致命对比如果用-concat-或-add-会怎样&#34;&gt;致命对比：如果用 Concat 或 Add 会怎样？&#xA;&lt;/h3&gt;&lt;p&gt;假设网络设计为：&lt;code&gt;最终特征 = MLP(当前特征 + 历史特征)&lt;/code&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;网络的作弊手段：&lt;/strong&gt; 网络会在 MLP 权重矩阵里，给&amp;quot;当前特征&amp;quot;分配极低权重（$0.01$），给&amp;quot;历史特征&amp;quot;分配极高权重（$0.99$）。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;灾难结果：&lt;/strong&gt; 不管当前帧发生什么，历史惯性都会强行碾压当前视觉，这就是典型的&lt;strong&gt;捷径学习&lt;/strong&gt;。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;Cross-Attention 凭什么能防作弊？&lt;/strong&gt;&#xA;因为它的融合是&lt;strong&gt;乘法约束（Dot Product $Q \cdot K^T$）&lt;/strong&gt;，而不是加法线性组合！&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;如果当前帧 $Q$ 看到前方空旷，历史 $K$ 也是直行，内积很大，历史 $V$ 被顺利吸收。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;关键时刻：&lt;/strong&gt; 如果当前帧 $Q$ 突然看到窜出来的行人，大老板 $Q$ 的特征向量会瞬间变成&amp;quot;紧急避让&amp;quot;。此时，&amp;ldquo;紧急避让的 $Q$&amp;rdquo; 和&amp;quot;历史直行的 $K$&amp;quot; 方向完全不一致，它们的&lt;strong&gt;内积会接近于 0&lt;/strong&gt;！&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;物理绞杀：&lt;/strong&gt; 经过 Softmax 后，这个历史顾问的权重会被&lt;strong&gt;死死地压在 $0.00001$&lt;/strong&gt;，历史信息直接被乘法&lt;strong&gt;物理清零&lt;/strong&gt;！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;反向作死实验如果把历史作为-query-会怎样&#34;&gt;反向作死实验：如果把&amp;quot;历史&amp;quot;作为 Query 会怎样？&#xA;&lt;/h3&gt;&lt;p&gt;这被称为**&amp;ldquo;确认偏误的架构放大器&amp;rdquo;**！&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;历史（大老板）拿着&amp;quot;左转&amp;quot;的 $Q$，去当前帧的画面里&lt;strong&gt;死抠&lt;/strong&gt;能支持它左转的证据。&lt;/li&gt;&#xA;&lt;li&gt;哪怕当前画面里有一辆大卡车挡住了左转道，历史 $Q$ 也会对大卡车视而不见，只把注意力放在远处的左转红绿灯上，最终导致直接撞上卡车。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十三模型的走捷径方法讨论&#34;&gt;十三、模型的走捷径方法讨论&#xA;&lt;/h2&gt;&lt;h4 id=&#34;问题&#34;&gt;问题&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;有没有可能模型让当前帧的 Query变成一个无脑接受历史信息的傀儡，从而实现拷贝历史的捷径 ？&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;答案&#34;&gt;答案&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;Cross-Attention机制下理论上不可行。因为为了让V完全被采纳，我们需要构造出一个和历史K的内积为单位阵的Q，但是我们在构造当前帧的Q时，没有提供任何关于历史的信息，所以它没办法和历史K“串供”。所以理论上通过Cross-Attention去融合历史信息是可以防止模型走捷径照抄历史的。&lt;/li&gt;&#xA;&lt;li&gt;但是如果是通过concat和mlp去获取历史信息，模型只需要把mlp网络中对应到历史信息的那部分权重调到0.99即可。所以concat+mlp是个很糟糕的融合历史的设计，很容易让模型走捷径。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十四为什么-dropout-和扰动仍然必不可少&#34;&gt;十四、为什么 Dropout 和扰动仍然必不可少？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;高级偷懒法基于统计先验的盲猜串供&#34;&gt;高级偷懒法：基于统计先验的&amp;quot;盲猜串供&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;虽然 Cross-Attention 切断了 Q 提前看 K 的通道，但模型发现一个宇宙级统计规律：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;自动驾驶的长尾诅咒：&lt;/strong&gt; 汽车 95% 的时间都在沿着车道线匀速直行。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;K 的高度同质化：&lt;/strong&gt; 95% 的训练样本里，历史 $K$ 长得几乎一模一样（都是&amp;quot;直行&amp;quot;向量）。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Q 的终极摆烂策略：&lt;/strong&gt; 把所有 $Q$ 都无脑映射成能和&amp;quot;直行K&amp;quot;完美匹配的形状，不就能拿 95% 的高分吗？&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;这叫&amp;quot;没有串供，但达成了默契&amp;quot;。&lt;/strong&gt; 这种偷懒比直接改 MLP 权重更难被发现！&lt;/p&gt;&#xA;&lt;h3 id=&#34;为什么必须上酷刑&#34;&gt;为什么必须上&amp;quot;酷刑&amp;quot;？&#xA;&lt;/h3&gt;&lt;p&gt;既然 Cross-Attention 无法阻止模型利用统计先验&amp;quot;盲猜&amp;quot;，就必须动用物理手段（拔网线和给历史下毒），&lt;strong&gt;打破这个 95% 的稳定预期&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;h4 id=&#34;第一道金牌信息隔离墙不准串供&#34;&gt;第一道金牌：信息隔离墙（不准串供）&#xA;&lt;/h4&gt;&lt;p&gt;在生成当前候选 Query 时，&lt;strong&gt;网络绝对接触不到历史状态&lt;/strong&gt;！它只能从当前帧的图像像素里提特征，强行生成一组代表当前意图的 Query。只有当这组无法作弊的 Query 生成完毕后，大门才打开，让它去和历史做 Cross-Attention。&lt;/p&gt;&#xA;&lt;h4 id=&#34;第二道金牌历史-dropout拔网线&#34;&gt;第二道金牌：历史 Dropout（拔网线）&#xA;&lt;/h4&gt;&lt;p&gt;对付&amp;quot;摸鱼大师&amp;quot;最好的办法，就是时不时抽查它的真本事。&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在训练迭代中，设置一个概率（比如 30%），强行把传入的历史特征（Key 和 Value）全部清零。&lt;/li&gt;&#xA;&lt;li&gt;当网络正准备&amp;quot;无脑抱历史大腿&amp;quot;时，突然发现大腿没了！Loss 直接爆炸。&lt;/li&gt;&#xA;&lt;li&gt;为了在&amp;quot;断电时刻&amp;quot;活下来，网络&lt;strong&gt;被迫&lt;/strong&gt;疯狂压榨当前帧的图像编码器，让它必须具备极强的单帧看路能力。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;第三道金牌给历史下毒momad-的灵魂robust-instance-denoising&#34;&gt;第三道金牌：给历史&amp;quot;下毒&amp;quot;（MomAD 的灵魂——Robust Instance Denoising）&#xA;&lt;/h4&gt;&lt;p&gt;既然网络喜欢&amp;quot;无脑信任历史&amp;quot;，那我就&lt;strong&gt;故意让历史变得不可信&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在训练阶段，给输入的特征人为加上&lt;strong&gt;高斯噪声&lt;/strong&gt;。&lt;/li&gt;&#xA;&lt;li&gt;假设上一帧真实情况是&amp;quot;直行&amp;quot;，但扰动让历史顾问传递出&amp;quot;我要向左猛打方向盘&amp;quot;的错觉信号。&lt;/li&gt;&#xA;&lt;li&gt;网络经过成千上万次&amp;quot;受骗&amp;quot;与&amp;quot;惩罚&amp;quot;，终于悟出：&lt;strong&gt;&amp;ldquo;历史顾问经常发神经，我必须坚决相信我这双眼睛看到的真相！&amp;rdquo;&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十五终局总结架构防小人训练防懒汉&#34;&gt;十五、终局总结：架构防&amp;quot;小人&amp;quot;，训练防&amp;quot;懒汉&amp;quot;&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;防御层级&lt;/th&gt;&#xA;          &lt;th&gt;方法&lt;/th&gt;&#xA;          &lt;th&gt;防住什么&lt;/th&gt;&#xA;          &lt;th&gt;防不住什么&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Concat + MLP&lt;/td&gt;&#xA;          &lt;td&gt;无防御&lt;/td&gt;&#xA;          &lt;td&gt;-&lt;/td&gt;&#xA;          &lt;td&gt;一切捷径&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Cross-Attention (只用架构)&lt;/td&gt;&#xA;          &lt;td&gt;关上了串供的门&lt;/td&gt;&#xA;          &lt;td&gt;直接改参数躺平&lt;/td&gt;&#xA;          &lt;td&gt;统计先验盲猜&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Cross-Attention + Dropout + 扰动&lt;/td&gt;&#xA;          &lt;td&gt;关门 + 放狗 + 拆门&lt;/td&gt;&#xA;          &lt;td&gt;几乎所有捷径&lt;/td&gt;&#xA;          &lt;td&gt;-&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;真正的护城河是组合拳：&lt;/strong&gt;&#xA;&lt;strong&gt;物理隔离（不能提前偷看）+ 拔网线（History Dropout）+ 钓鱼执法（加噪声微扰）。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;这三招齐下，才把端到端自动驾驶网络，从一个&amp;quot;只会复读的录音机&amp;quot;，逼成了一个&amp;quot;既懂历史规律、又对当下极其警惕的老司机&amp;quot;！&lt;/p&gt;&#xA;</description>
        </item></channel>
</rss>
