<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>注意力机制 on 朝花夕拾</title>
        <link>https://example.org/tags/%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6/</link>
        <description>Recent content in 注意力机制 on 朝花夕拾</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <lastBuildDate>Tue, 17 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://example.org/tags/%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>HiP-AD: Hierarchical and Multi-granularity Planning with Deformable Attention</title>
            <link>https://example.org/post/robotics/e2e/hi-p-ad/</link>
            <pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/e2e/hi-p-ad/</guid>
            <description>&lt;hr&gt;&#xA;&lt;h2 id=&#34;一这篇论文在讲什么&#34;&gt;一、这篇论文在讲什么？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心问题ai司机的偏科痛点&#34;&gt;核心问题：AI司机的&amp;quot;偏科&amp;quot;痛点&#xA;&lt;/h3&gt;&lt;p&gt;现在的端到端自动驾驶（E2E-AD）界有个普遍的怪现象：&lt;strong&gt;&amp;ldquo;应试教育&amp;quot;满分，&amp;ldquo;实战上路&amp;quot;拉胯。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;开环测试（开卷考试）&lt;/strong&gt;：给一段历史视频，让 AI 画出未来的行驶轨迹（Waypoints）。大家都画得很好，碰撞率（Collision Rate）极低，甚至能降到 0.1%。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;闭环测试（实车上路）&lt;/strong&gt;：把 AI 扔进仿真软件（比如 Bench2Drive）里真刀真枪地开。结果呢？成功率不到 35%！遇到路口就犹豫不决（超时死机），遇到突发情况就抓瞎。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;问题根源&#34;&gt;问题根源&#xA;&lt;/h3&gt;&lt;p&gt;作者一针见血地指出：目前的 AI 在&amp;quot;规划（Planning）&amp;ldquo;时，和&amp;quot;感知（Perception）&amp;ldquo;的交互太弱了！而且预测出来的轨迹太单调（只有稀疏的几个点），根本不够用来做精细的车辆控制。&lt;/p&gt;&#xA;&lt;h3 id=&#34;hip-ad-的答案&#34;&gt;HiP-AD 的答案&#xA;&lt;/h3&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;用 &lt;strong&gt;&amp;ldquo;分层多粒度预测&amp;rdquo; + &amp;ldquo;顺着轨迹看图像（PDA）&amp;rdquo; + &amp;ldquo;三合一圆桌会议（统一解码器）&amp;rdquo;&lt;/strong&gt;，彻底打通感知与规划的任督二脉&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;二核心方法老司机的三大独门绝技&#34;&gt;二、核心方法：老司机的三大独门绝技&#xA;&lt;/h2&gt;&lt;h3 id=&#34;绝技一多把量尺看世界--分层与多粒度规划&#34;&gt;绝技一：多把量尺看世界 —— 分层与多粒度规划&#xA;&lt;/h3&gt;&lt;p&gt;以前的 AI 预测轨迹，就是每秒打几个点（时间路点，Temporal Waypoints）。这就好比司机只知道&amp;quot;我 3 秒后要到那个路口&amp;rdquo;，但他不知道这 3 秒内方向盘该打几度。&lt;/p&gt;&#xA;&lt;p&gt;HiP-AD 彻底改变了玩法，它不仅预测时间，还把轨迹拆解成了 &lt;strong&gt;三大维度（模态）&lt;/strong&gt;，并且每个维度都有 &lt;strong&gt;不同的颗粒度&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;模态&lt;/th&gt;&#xA;          &lt;th&gt;关注点&lt;/th&gt;&#xA;          &lt;th&gt;颗粒度划分&lt;/th&gt;&#xA;          &lt;th&gt;用途&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;空间路点&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&amp;ldquo;路径&amp;quot;怎么走&lt;/td&gt;&#xA;          &lt;td&gt;密集（2m一个点）&amp;amp; 稀疏（5m一个点）&lt;/td&gt;&#xA;          &lt;td&gt;密集点做精准方向盘微调（横向控制），稀疏点看宏观大局&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;时间路点&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&amp;ldquo;什么时候到哪&amp;rdquo;&lt;/td&gt;&#xA;          &lt;td&gt;高频（5Hz）&amp;amp; 低频（2Hz）&lt;/td&gt;&#xA;          &lt;td&gt;高频应对紧急情况，低频规划长程&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;驾驶风格路点&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&amp;ldquo;车速和动作&amp;rdquo;&lt;/td&gt;&#xA;          &lt;td&gt;慢/中/快（0-4, 4-10, 10+ m/s）&lt;/td&gt;&#xA;          &lt;td&gt;应对超车、紧急刹车等复杂场景&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;控车策略&lt;/strong&gt;：AI 会用空间路点控制方向盘（横向），用时间和驾驶风格路点控制油门刹车（纵向），完美解决由于轨迹点太稀疏导致的&amp;quot;车辆犹豫&amp;quot;问题！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;绝技二指哪打哪的目光--规划可变形注意力pda&#34;&gt;绝技二：指哪打哪的目光 —— 规划可变形注意力（PDA）&#xA;&lt;/h3&gt;&lt;p&gt;以前的 AI 规划器在看周围环境时，是&amp;quot;全局乱瞟&amp;rdquo;（Global Attention），不仅计算量大，还容易抓不到重点。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;HiP-AD 的做法极其聪明&lt;/strong&gt;——它利用了几何学物理规律：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;先把系统预测出的 3D 未来轨迹点（Waypoints），通过相机参数，&lt;strong&gt;投影映射到 2D 的多视角环视图像上&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;然后，只在这些 &lt;strong&gt;&amp;ldquo;车轮即将压过&amp;rdquo;&lt;/strong&gt; 的图像物理位置附近，去采样提取图像特征&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;生动比喻&lt;/strong&gt;：&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;这就像老司机在开车时，目光会死死盯住自己即将开过去的那条车道线和前方的障碍物，而不是去看天上的云彩。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;&lt;strong&gt;数学表达&lt;/strong&gt;：&#xA;$$\text{PDA}(Q_p, F) = \sum_{i \in \mathcal{V}} \text{DeformAttn}(Q_p, \mathcal{P}(A_p), F_i)$$&lt;/p&gt;&#xA;&lt;p&gt;规划主脑有一条预测出的未来 3D 轨迹（$A_p$）。它把这条未来轨迹用函数 $\mathcal{P}$ 投影到多视角的图像（$F$）上，然后只在&amp;quot;未来车轮即将压过的图像像素点&amp;quot;周围提取特征！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;绝技三超级大脑圆桌会议--统一解码器unified-decoder&#34;&gt;绝技三：超级大脑圆桌会议 —— 统一解码器（Unified Decoder）&#xA;&lt;/h3&gt;&lt;p&gt;传统的框架是流水线作业：先做感知（找车、找线）→ 再做预测 → 最后做规划。不仅慢，信息还会衰减。&lt;/p&gt;&#xA;&lt;p&gt;HiP-AD 搞了一个 &lt;strong&gt;&amp;ldquo;单解码器&amp;rdquo;&lt;/strong&gt;，把所有任务拉进一个群里并行开会！&lt;/p&gt;&#xA;&lt;h4 id=&#34;入场的三大代表输入配置&#34;&gt;入场的三大&amp;quot;代表&amp;rdquo;（输入配置）&#xA;&lt;/h4&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;代表&lt;/th&gt;&#xA;          &lt;th&gt;符号&lt;/th&gt;&#xA;          &lt;th&gt;职责&lt;/th&gt;&#xA;          &lt;th&gt;初始坐标（Anchors）&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;🚗 动态物体代表&lt;/td&gt;&#xA;          &lt;td&gt;Agent Query ($Q_a$)&lt;/td&gt;&#xA;          &lt;td&gt;找周围移动的车、人&lt;/td&gt;&#xA;          &lt;td&gt;3D 边界框（Box Anchors）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;🛣️ 静态地图代表&lt;/td&gt;&#xA;          &lt;td&gt;Map Query ($Q_m$)&lt;/td&gt;&#xA;          &lt;td&gt;找车道线、斑马线&lt;/td&gt;&#xA;          &lt;td&gt;聚类算法生成的折线（Polyline Anchors）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;🧠 自动驾驶主脑代表&lt;/td&gt;&#xA;          &lt;td&gt;Planning Query ($Q_p$)&lt;/td&gt;&#xA;          &lt;td&gt;决定咱们自己的车往哪开&lt;/td&gt;&#xA;          &lt;td&gt;未来 $T$ 个时间点的行驶轨迹折线&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h4 id=&#34;圆桌会议的三大议程&#34;&gt;圆桌会议的三大议程&#xA;&lt;/h4&gt;&lt;p&gt;每个 Decoder Layer 都包含以下三个关键环节：&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h4 id=&#34;-议程一翻阅历史案卷--时序交互模块&#34;&gt;🕒 议程一：翻阅历史案卷 —— 时序交互模块&#xA;&lt;/h4&gt;&lt;p&gt;老司机开车绝不能只看眼前，得记得上一秒旁边有辆车想加塞。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;技术动作&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;代表们（Queries）首先会和 &lt;strong&gt;上一帧历史保留下来的重要特征&lt;/strong&gt; 进行 &lt;strong&gt;交叉注意力（Cross-Attention）&lt;/strong&gt; 计算&lt;/li&gt;&#xA;&lt;li&gt;为了防止历史信息太多把脑袋撑爆，系统用了一个 &lt;strong&gt;Top-$k$ 选择机制&lt;/strong&gt;，只保留上一帧最有价值的线索&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;给主脑开小灶&lt;/strong&gt;：规划代表（Planning Query）不但要回顾自己的历史，还会额外增加一次跨任务的 Cross-Attention，专门去盯住历史帧里的感知信息&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h4 id=&#34;-议程二圆桌激烈讨论--协同交互模块&#34;&gt;🗣️ 议程二：圆桌激烈讨论 —— 协同交互模块&#xA;&lt;/h4&gt;&lt;p&gt;看完历史，大家得互相通气了。主脑需要知道哪里有车、哪里是实线，才能规划路线。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;核心技术细节 —— 几何物理融合（公式 1）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;p&gt;$$\text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{C}} - \tau D\right)V$$&lt;/p&gt;&#xA;&lt;p&gt;常规的注意力机制只有前半部分，决定谁和谁更相关。但这里多了一个极其关键的 &lt;strong&gt;&amp;ldquo;惩罚项&amp;rdquo;&lt;/strong&gt;：$- \tau D$&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;$D$ 是什么？&lt;/strong&gt; 两个物体在真实 3D 物理世界里的 &lt;strong&gt;欧几里得距离&lt;/strong&gt;（比如动态车与车之间、车与车道线之间）&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;$\tau$ 是什么？&lt;/strong&gt; 通过多层感知机（MLP）学习出来的系数&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;精妙之处&lt;/strong&gt;：如果一辆车离你很远（$D$ 很大），那么它在注意力分数里就会被狠狠扣分。这强迫 AI 司机 &lt;strong&gt;&amp;ldquo;把有限的注意力集中在离自己最近、最危险的物体上&amp;rdquo;&lt;/strong&gt;！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;主脑的特权&lt;/strong&gt;：这个距离惩罚对感知代表有效，但对 &lt;strong&gt;规划代表没有距离限制&lt;/strong&gt;！为什么？因为作为最高决策者，规划主脑必须有统揽全局的视野。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h4 id=&#34;-议程三去图像里找证据--任务可变形注意力模块&#34;&gt;🎯 议程三：去图像里找证据 —— 任务可变形注意力模块&#xA;&lt;/h4&gt;&lt;p&gt;讨论出了初步结果，代表们需要带着目前的猜测，去原始的摄像机画面里 &lt;strong&gt;&amp;ldquo;精准取证&amp;rdquo;&lt;/strong&gt;，刷新自己的认知。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;感知代表的做法&lt;/strong&gt;：把 3D 锚点顺着预设高度，利用相机参数 &lt;strong&gt;投影到 2D 环视图像上&lt;/strong&gt;，然后在投影落下的那个点附近采样提取图像特征。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;规划主脑的终极奥义（PDA）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;把预测的&amp;quot;未来 3D 行驶轨迹路点&amp;quot;投影到多个摄像头画面上&lt;/li&gt;&#xA;&lt;li&gt;让主脑自己学习：在轨迹周围哪些像素点最值得关注？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;目光死死盯住&amp;quot;车轮即将压过的未来路线&amp;quot;周围的画面！提取图像特征。&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;三伪代码实现老司机的脑神经&#34;&gt;三、伪代码实现：老司机的脑神经&#xA;&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; torch&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; torch.nn.functional &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; F&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;Unified_Decoder&lt;/span&gt;(&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    image_features,   &lt;span style=&#34;color:#75715e&#34;&gt;# [多视角环视图像特征 F] (监控录像)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    queries,          &lt;span style=&#34;color:#75715e&#34;&gt;# [动态物体Qa, 静态地图Qm, 规划主脑Qp] (拿着清单的代表)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    anchors,          &lt;span style=&#34;color:#75715e&#34;&gt;# [动态框Aa, 静态线段Am, 未来轨迹Ap] (各自关注的3D物理坐标)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    history_memory,   &lt;span style=&#34;color:#75715e&#34;&gt;# [上一帧存下来的重要记忆]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    camera_params,    &lt;span style=&#34;color:#75715e&#34;&gt;# [相机的内外参矩阵] (用于3D到2D的投影)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    num_layers&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;6&lt;/span&gt;      &lt;span style=&#34;color:#75715e&#34;&gt;# 会议通常要开好几轮 (堆叠6层Decoder)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# --- 会议前奏：代表入场 ---&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    Qa, Qm, Qp &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; queries&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    Aa, Am, Ap &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; anchors&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 🔄 开始循环开会：每一层 Decoder 都在进行信息的深度融合&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;for&lt;/span&gt; layer &lt;span style=&#34;color:#f92672&#34;&gt;in&lt;/span&gt; range(num_layers):&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 🕒 议程一：时序交互模块 (Temporal Interaction Module)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 目标：&amp;#34;温故知新&amp;#34;，看看上一秒发生了什么。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 1. 脑容量有限，用 Top-k 机制挑选上一帧最有价值的记忆点&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        hist_k_agent, hist_k_map, hist_k_plan &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; select_top_k(history_memory)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 2. 感知代表各自查阅自己的历史卷宗 (Cross-Attention)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qa &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; CrossAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qa, key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_agent, value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_agent)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qm &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; CrossAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qm, key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_map,   value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_map)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 💡 3. 【老司机的特权】规划主脑不仅看自己的历史轨迹，&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;#    还要盯着历史的感知环境！&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qp_self_hist &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; CrossAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qp, key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_plan, value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;hist_k_plan)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qp_perc_hist &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; CrossAttention(&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qp,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            key&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;concat(hist_k_agent, hist_k_map),&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;concat(hist_k_agent, hist_k_map)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        )&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qp &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; combine_features(Qp_self_hist, Qp_perc_hist)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 🗣️ 议程二：协同交互模块 (Collaborative Interaction Module)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 目标：统一的圆桌会议，互相通气，引入&amp;#34;物理距离惩罚&amp;#34;！&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 1. 把所有人拉进一个群里&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Q_all &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; concat(Qa, Qm, Qp)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        A_all &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; concat(Aa, Am, Ap)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 2. 计算纯粹的注意力分数 (谁跟谁有关联)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        attn_scores &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;matmul(Q_all, Q_all&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;transpose(&lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;, &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)) &lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt; math&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sqrt(C)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 💡 3. 【核心技术细节：公式(1)】计算真实物理世界中 3D 锚点之间的距离矩阵 D&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        D_matrix &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; calc_euclidean_distance_3d(A_all, A_all)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# ⚠️ 【主脑特权掩码】规划主脑(Qp)看所有人都不受距离限制&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        D_matrix &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; apply_planning_mask(D_matrix, mask_value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;0.0&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 4. 用一个小网络学习一个动态系数 tau (控制惩罚力度)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        tau &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; MLP(Q_all)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 5. 施加物理距离惩罚！距离越远的物体，注意力得分被扣得越惨&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        penalized_scores &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; attn_scores &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt; (tau &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; D_matrix)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        attn_weights &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; F&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;softmax(penalized_scores, dim&lt;span style=&#34;color:#f92672&#34;&gt;=-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 6. 根据惩罚后的权重，大家交换情报&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Q_all_updated &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;matmul(attn_weights, Q_all)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 7. 散会，大家拿着更新后的情报各自归位&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qa, Qm, Qp &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; split_queries(Q_all_updated)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 🎯 议程三：任务可变形注意力模块 (Task Deformable Attention Module)&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 目标：拿着讨论结果，去图像画面里&amp;#34;精准取证&amp;#34;。&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# =========================================================&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 1. 感知代表去找车和线：把 3D 的框和线投影到 2D 图像上&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        P_a_2d &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; project_3D_to_2D(Aa, camera_params)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        P_m_2d &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; project_3D_to_2D(Am, camera_params)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qa &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; DeformableAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qa, reference_points&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;P_a_2d, features&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;image_features)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qm &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; DeformableAttention(query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qm, reference_points&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;P_m_2d, features&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;image_features)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 💡 2. 【核心技术细节：公式(2) PDA】规划主脑的终极绝技！&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;#    把预测的&amp;#34;未来3D行驶轨迹路点&amp;#34;投影到多个摄像头画面上&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        P_p_2d &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; project_trajectory_to_2D(Ap, camera_params, predefined_heights)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 让主脑自己学习：在轨迹周围哪些像素点最值得关注？&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        sampling_offsets, sampling_weights &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; MLP_predict_offsets_weights(Qp)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 施展 PDA：目光死死盯住&amp;#34;车轮即将压过的未来路线&amp;#34;周围的画面！&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Qp &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; PDA_DeformableAttention(&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            query&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;Qp,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            reference_points&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;P_p_2d,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            offsets&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;sampling_offsets,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            weights&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;sampling_weights,&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            features&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;image_features&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        )&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#75715e&#34;&gt;# 🔄 层级收尾：更新代表们的 3D 坐标锚点&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Aa &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; update_anchors(Aa, Qa)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Am &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; update_anchors(Am, Qm)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        Ap &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; update_anchors(Ap, Qp)  &lt;span style=&#34;color:#75715e&#34;&gt;# 轨迹越来越精确&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#75715e&#34;&gt;# 🚪 整个开会流程结束，输出给外面的业务部门 (Heads) 去执行&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    update_history_memory(Qa, Qm, Qp)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; Qa, Qm, Qp&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;伪代码里的三个高光时刻&#34;&gt;伪代码里的三个&amp;quot;高光时刻&amp;rdquo;&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;&lt;strong&gt;议程一中的 &lt;code&gt;combine_features(Qp_self_hist, Qp_perc_hist)&lt;/code&gt;&lt;/strong&gt;：规划时不仅记得自己上一秒想怎么走，还 &lt;strong&gt;直接&lt;/strong&gt; 调取了上一秒周围环境的原始记忆，没有中间商赚差价。&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;&lt;strong&gt;议程二中的 &lt;code&gt;penalized_scores = attn_scores - (tau * D_matrix)&lt;/code&gt;&lt;/strong&gt;：这就是论文里最惊艳的 &lt;strong&gt;几何物理融合&lt;/strong&gt;。它强迫网络变成一个真正的司机——&amp;ldquo;不要看天上飞的鸟，看离你保险杠只有半米远的那辆车！&amp;rdquo;&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;&lt;strong&gt;议程三中的 &lt;code&gt;PDA_DeformableAttention&lt;/code&gt;&lt;/strong&gt;：传统的网络是在图像上撒网捞鱼，而这里是 &lt;strong&gt;&amp;ldquo;按图索骥&amp;rdquo;&lt;/strong&gt;。沿着预测轨迹投影到 2D 上的路线，只在这个轨迹的左右两边提取图像特征。&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;四秘密训练法对齐匹配align-matching&#34;&gt;四、秘密训练法：对齐匹配（Align Matching）&#xA;&lt;/h2&gt;&lt;p&gt;因为搞出了几十种不同粒度、不同模态的预测轨迹，训练的时候 AI 容易&amp;quot;精神分裂&amp;rdquo;，到底哪个才是最准的？&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;对齐匹配机制（公式 6）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在训练时，采用 &lt;strong&gt;&amp;ldquo;赢家通吃&amp;rdquo;（Winner-takes-all）&lt;/strong&gt; 的策略&lt;/li&gt;&#xA;&lt;li&gt;先在所有的轨迹预测组里，找到和真实人类轨迹（Ground Truth）差距最小（L2 距离最小）的那组作为&amp;quot;学霸（Reference）&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;然后，强迫其他所有的粒度组，都向这个&amp;quot;学霸&amp;quot;的模态对齐，共享匹配结果，把梯度有效地反向传播回去&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;五战绩揭晓实验结果&#34;&gt;五、战绩揭晓（实验结果）&#xA;&lt;/h2&gt;&lt;p&gt;这位练成神功的 HiP-AD 老司机去考场了，结果直接&amp;quot;屠榜&amp;quot;！&lt;/p&gt;&#xA;&lt;h3 id=&#34;闭环终极测验bench2drive-数据集&#34;&gt;闭环终极测验（Bench2Drive 数据集）&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;指标&lt;/th&gt;&#xA;          &lt;th&gt;HiP-AD&lt;/th&gt;&#xA;          &lt;th&gt;第二名（DriveTransformer）&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;成功率&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;72.7%&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;35%（翻了一倍多）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;驾驶得分&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;88.3&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;远超所有现有端到端模型&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;特殊技能考核&#34;&gt;特殊技能考核&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;高难度科目&lt;/th&gt;&#xA;          &lt;th&gt;成功率&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;紧急刹车&lt;/td&gt;&#xA;          &lt;td&gt;83.33%&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;超车&lt;/td&gt;&#xA;          &lt;td&gt;84.44%&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;汇入车流&lt;/td&gt;&#xA;          &lt;td&gt;50%&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;不再像以前的模型那样遇到复杂路况就死机！&lt;/p&gt;&#xA;&lt;h3 id=&#34;开环基础测验nuscenes-数据集&#34;&gt;开环基础测验（nuScenes 数据集）&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;碰撞率&lt;/strong&gt;：0.01% - 0.05%（极低）&lt;/li&gt;&#xA;&lt;li&gt;感知和预测任务也拿到了顶尖分数，证明底盘依然极度扎实&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;六总结与局限&#34;&gt;六、总结与局限&#xA;&lt;/h2&gt;&lt;h3 id=&#34;一句话总结&#34;&gt;一句话总结&#xA;&lt;/h3&gt;&lt;p&gt;HiP-AD 通过 &lt;strong&gt;&amp;ldquo;分层多粒度预测&amp;rdquo; + &amp;ldquo;顺着轨迹看图像（PDA）&amp;rdquo; + &amp;ldquo;三合一圆桌会议（统一解码器）&amp;rdquo;&lt;/strong&gt;，彻底打通了感知与规划的任督二脉，解决了端到端自动驾驶在闭环仿真中不敢开、不会开的难题。&lt;/p&gt;&#xA;&lt;h3 id=&#34;局限性论文坦诚&#34;&gt;局限性（论文坦诚）&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;遇到后方突然高速冲过来的车辆时，系统有时候还是会反应不及（这确实也是人类司机的盲区）&lt;/li&gt;&#xA;&lt;li&gt;目前还在仿真阶段，真车路测将是未来的星辰大海&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;参考来源&#34;&gt;参考来源&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;原论文：HiP-AD: Hierarchical and Multi-granularity Planning with Deformable Attention for End-to-End Autonomous Driving&lt;/li&gt;&#xA;&lt;li&gt;讨论：Gemini 3.1 Pro Preview 对话记录&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;</description>
        </item></channel>
</rss>
