<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>GRPO on 朝花夕拾</title>
        <link>https://example.org/tags/grpo/</link>
        <description>Recent content in GRPO on 朝花夕拾</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <lastBuildDate>Tue, 17 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://example.org/tags/grpo/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>DiffusionDriveV2: Truncated Diffusion Model for End-to-End Autonomous Driving</title>
            <link>https://example.org/post/robotics/e2e/diffusion-drive-v2/</link>
            <pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate>
            <guid>https://example.org/post/robotics/e2e/diffusion-drive-v2/</guid>
            <description>&lt;hr&gt;&#xA;&lt;h2 id=&#34;一这篇论文在讲什么&#34;&gt;一、这篇论文在讲什么？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心问题&#34;&gt;核心问题&#xA;&lt;/h3&gt;&lt;p&gt;自动驾驶规划面临一个经典的两难困境：&lt;strong&gt;多样性 vs 质量&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;太保守&lt;/strong&gt;：只会&amp;quot;死记硬背&amp;quot;人类司机的走法，遇到新情况就傻眼&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;太发散&lt;/strong&gt;：想象力太丰富，画出各种会撞车的方案&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;diffusiondrivev2-的答案&#34;&gt;DiffusionDriveV2 的答案&#xA;&lt;/h3&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;用&lt;strong&gt;扩散模型&lt;/strong&gt;生成多条候选路径（多样性），再用&lt;strong&gt;强化学习&lt;/strong&gt;像严厉的教练一样筛选（质量）&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;形象的比喻：&lt;strong&gt;射箭比赛&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;以前的模型&lt;/strong&gt;：只盯着靶心射一箭，射偏了就没招了&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;DiffusionDriveV2&lt;/strong&gt;：一次性朝靶心周围射出一把箭（多样性），然后剪掉那些射到观众席的箭（质量约束），最后选出最准的一支&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;二核心方法三招绝学&#34;&gt;二、核心方法：三招绝学&#xA;&lt;/h2&gt;&lt;h3 id=&#34;第一招尺度自适应乘法噪声--让脑洞更顺滑&#34;&gt;第一招：尺度自适应乘法噪声 —— 让&amp;quot;脑洞&amp;quot;更顺滑&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;以前的做法（加法噪声）&lt;/strong&gt;：在路径上乱加干扰，结果路径变得像毛刺一样，车开起来会剧烈抖动&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;V2 的创新&lt;/strong&gt;：&#xA;$$\tau&amp;rsquo; = (1 + \epsilon_{mul})\tau$$&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;生动理解&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;近处（车头）：抖动小，因为车头方向需要精确控制&lt;/li&gt;&#xA;&lt;li&gt;远处（目标点）：抖动大，因为远处的路径本身就有不确定性&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这符合开车时&amp;quot;微调方向、远方模糊&amp;quot;的真实物理规律。&lt;/p&gt;&#xA;&lt;h3 id=&#34;第二招intra-anchor-grpo--窝里斗选优胜者&#34;&gt;第二招：Intra-Anchor GRPO —— 窝里斗，选优胜者&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;核心逻辑&lt;/strong&gt;：不比绝对高低，只比相对好坏&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;流程&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;针对同一个意图模板（比如&amp;quot;左转&amp;quot;），生成 8 条略有不同的路径&lt;/li&gt;&#xA;&lt;li&gt;裁判给这 8 条路径打分（是否撞车、是否开出马路、乘客稳不稳）&lt;/li&gt;&#xA;&lt;li&gt;计算&amp;quot;相对优势&amp;quot;：$A = \frac{\text{你的分数} - \text{平均分}}{\text{差异度}}$&lt;/li&gt;&#xA;&lt;li&gt;表现比平均好的，优势值为正；比平均差的，为负&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;为什么要&amp;quot;组内&amp;quot;比？&lt;/strong&gt;&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&amp;ldquo;左转&amp;quot;和&amp;quot;直行&amp;quot;的分数没有可比性。左转天生就比直行难。如果放在一起比，模型可能会为了拿高分而只学直行（&lt;strong&gt;模式崩溃&lt;/strong&gt;）。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;&lt;strong&gt;临摹字帖的比喻&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;p&gt;想象你在练书法，桌上有 64 张不同的字帖（Anchors）：一张是&amp;quot;一&amp;quot;字，一张是&amp;quot;之&amp;quot;字，一张是&amp;quot;永&amp;quot;字……&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;生成过程&lt;/strong&gt;：你拿一张&amp;quot;永&amp;quot;字的字帖，临摹了 8 遍。虽然每遍写得都有点细微差别（加了随机噪声），但因为你都是照着&amp;quot;永&amp;quot;字写的，这 8 张纸就被归为 &lt;strong&gt;&amp;ldquo;永字组&amp;rdquo;&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;组内 GRPO&lt;/strong&gt;：老师（Reward）过来看这 8 张&amp;quot;永&amp;quot;字，选出写得最漂亮的一张，给你奖励&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;拒绝跨组比较&lt;/strong&gt;：老师不会拿你写的&amp;quot;永&amp;quot;字去和隔壁桌写的&amp;quot;一&amp;quot;字比谁更漂亮，因为它们根本不是一个字，没法比&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;第三招inter-anchor-truncated-grpo--守底线撞车必罚&#34;&gt;第三招：Inter-Anchor Truncated GRPO —— 守底线，撞车必罚&#xA;&lt;/h3&gt;&lt;p&gt;虽然&amp;quot;窝里斗&amp;quot;能选出最好的左转方案，但如果所有的左转方案都会撞上护栏怎么办？&lt;/p&gt;&#xA;&lt;p&gt;这一招建立了&lt;strong&gt;全局底线&lt;/strong&gt;：不管你是哪种意图，只要撞车，通通判死刑（给极低的负分）。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;三mode-selector最后拍板的那个人&#34;&gt;三、Mode Selector：最后拍板的那个人&#xA;&lt;/h2&gt;&lt;p&gt;Intra-Anchor GRPO 确保了每个意图都能产生高质量的路径，但车只能选一条路走。谁来拍板？&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;Mode Selector&lt;/strong&gt; 就是那个&amp;quot;主裁判&amp;rdquo;，它的工作是：&lt;/p&gt;&#xA;&lt;h3 id=&#34;1-怎么选-综合多维度打分&#34;&gt;1. 怎么选？—— 综合多维度打分&#xA;&lt;/h3&gt;&lt;p&gt;结合三类关键信息进行&amp;quot;面试&amp;quot;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;路径本身&lt;/strong&gt;：弯曲程度如何？是否平滑？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;环境背景（BEV Features）&lt;/strong&gt;：通过交叉注意力，看看路附近有没有障碍物、马路牙子或红绿灯&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;任务目标&lt;/strong&gt;：导航让你左转，那左转组的路径天生得到更高的&amp;quot;意图分&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;2-技术实现&#34;&gt;2. 技术实现&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;MLP 打分&lt;/strong&gt;：经过特征融合后，通过 MLP 给每条路径打分&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;粗选+精选（Coarse-to-fine）&lt;/strong&gt;：先快看一眼，淘汰明显不行的；剩下的再仔细对比&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;3-训练标准&#34;&gt;3. 训练标准&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;BCE Loss（对错分）&lt;/strong&gt;：告诉它哪条路最接近人类司机的真值&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Margin-Rank Loss（排序分）&lt;/strong&gt;：不要求算出绝对好坏分，而是要求能排对顺序&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;如果没有这个 Mode Selector，光有 GRPO，车子可能会在&amp;quot;左转&amp;quot;和&amp;quot;直行&amp;quot;之间反复横跳，不知道该听谁的。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;四grpo-vs-dpo两种教导方式的对比&#34;&gt;四、GRPO vs DPO：两种&amp;quot;教导方式&amp;quot;的对比&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;特性&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DPO (直接偏好优化)&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;GRPO (组相对策略优化)&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;数据形式&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;成对数据（A &amp;gt; B）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;组数据（A, B, C, D&amp;hellip;）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;学习方式&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;离线学习&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;在线探索&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;核心逻辑&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;隐式奖励&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;显式奖励&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;比喻&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;看录像带学习&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;队内选拔赛&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;为什么论文选 GRPO 而不是 DPO？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;解决模式崩溃&lt;/strong&gt;：GRPO 通过组内归一化，强制保留每个意图的独特性&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;不需要 Critic 网络&lt;/strong&gt;：GRPO 利用&amp;quot;组平均分&amp;quot;代替了评论员，更简单、更省内存&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;动态进化&lt;/strong&gt;：在扩散模型复杂的生成空间里，GRPO 能让模型不断发现&amp;quot;原来这样走比刚才那样走更好&amp;quot;&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;五reward-函数交规考试式的打分&#34;&gt;五、Reward 函数：交规考试式的打分&#xA;&lt;/h2&gt;&lt;p&gt;GRPO 的 Reward 是&lt;strong&gt;人工定义的规则&lt;/strong&gt;计算的，不需要神经网络：&lt;/p&gt;&#xA;&lt;h3 id=&#34;具体规则&#34;&gt;具体规则&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;指标&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;含义&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;判定方式&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;NC (No Collision)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;碰撞惩罚&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;如果撞到车/行人/护栏，给巨大负分&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;DAC (Drivable Area Compliance)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;合规性&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;车轮是否压到马路牙子、是否逆行&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;EP (Ego Progress)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;进度得分&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;鼓励往前走，走得越远且符合限速，得分越高&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;C (Comfort)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;舒适度&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;路径平滑度、加速度和急转弯程度&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;TTC (Time To Collision)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;时间到碰撞&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;离前车的距离和相对速度是否安全&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;为什么不用神经网络打分&#34;&gt;为什么不用神经网络打分？&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;客观标准明确&lt;/strong&gt;：自动驾驶&amp;quot;撞没撞车&amp;quot;是物理事实，用规则算比用模型猜更准确、可靠&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;计算速度快&lt;/strong&gt;：规则计算只是几行物理公式，不需要运行庞大的神经网络&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;避开&amp;quot;幻觉&amp;quot;&lt;/strong&gt;：AI 模型可能产生幻觉觉得撞车也挺好，但物理规则是铁律&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;六技术演进三代扩散模型的对比&#34;&gt;六、技术演进：三代扩散模型的对比&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;特性&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionPlanner&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionDrive V1&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionDriveV2&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;起始状态&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;纯随机噪声（从 0 到 1 创造）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;预定义锚点（从半成品加工）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;锚点 + 尺度自适应噪声&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;去噪步数&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;多步（通常 10+ 步，慢）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;极少步（1-2 步，快）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;极少步（1-2 步，快）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;多样性保证&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;扩散模型天然属性（不稳定）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;64 个锚点强制分区（稳定）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;锚点分区 + GRPO 保护意图&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;学习范式&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;模仿学习 (IL)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;模仿学习 (IL)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;模仿学习 + 强化学习 (RL)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;存在痛点&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;算得慢、容易模式崩溃&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;容易产生会撞车的低质轨迹&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;系统复杂度高（训练难）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;生动理解三代的区别&#34;&gt;生动理解三代的区别&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;A. 关于&amp;quot;噪声&amp;quot;的艺术&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;DiffusionPlanner：在沙堆里找金子，范围太大，容易迷失&lt;/li&gt;&#xA;&lt;li&gt;DiffusionDrive：给沙堆围了 64 个小栅栏，让你在栅栏里找，效率高了，但栅栏里可能混进了石头&lt;/li&gt;&#xA;&lt;li&gt;DiffusionDriveV2：不仅有栅栏，还发明了&amp;quot;乘法噪声&amp;quot;，近处抖动小，远处抖动大，符合开车物理规律&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;B. 关于&amp;quot;教导方式&amp;quot;的变革&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;前两代：看人画画，只知道老师没往墙上撞，不知道为什么不撞&lt;/li&gt;&#xA;&lt;li&gt;V2 时代：引入&amp;quot;警察罚款&amp;quot;，如果你画到墙上，GRPO 教练会狠狠扣分&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;七架构拓扑从模糊到精确&#34;&gt;七、架构拓扑：从模糊到精确&#xA;&lt;/h2&gt;&lt;h3 id=&#34;diffusionplanner模糊的一段式monolithic&#34;&gt;DiffusionPlanner：模糊的一段式（Monolithic）&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;传感器数据 → 特征提取 → 扩散解码器&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;像一个&amp;quot;黑盒&amp;quot;，缺乏中间变量，人类很难理解它为什么要这么开。&lt;/p&gt;&#xA;&lt;h3 id=&#34;diffusiondrive-v1清晰的二段式perception-then-plan&#34;&gt;DiffusionDrive V1：清晰的二段式（Perception-then-Plan）&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;传感器 → BEV 特征图 + 目标检测 → 锚点扩散&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;有了明确的分工。先通过感知算法把世界变成&amp;quot;鸟瞰图&amp;quot;，规划器再在这张图上&amp;quot;画画&amp;quot;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;diffusiondrivev2精密的多级反馈二段式&#34;&gt;DiffusionDriveV2：精密的&amp;quot;多级反馈&amp;quot;二段式&#xA;&lt;/h3&gt;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;传感器 → 高精度 BEV → 组内并行扩散（GRPO） → 模式选择&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;在 V1 基础上增加了&amp;quot;选优级&amp;quot;，形成了&amp;quot;感知 → 粗规划 → 精规划&amp;quot;的三级跳。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;八传感器融合如何构建-bev&#34;&gt;八、传感器融合：如何构建 BEV？&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;特性&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionPlanner&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionDrive V1&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: left&#34;&gt;DiffusionDriveV2&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;输入源&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;单视角或视角特征拼接&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;多相机环视（6 颗摄像头）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;相机 + LiDAR（多模态对齐）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;特征空间&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;图像空间&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;BEV 空间（LSS 方案）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;时序对齐 BEV（ResNet-34）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;&lt;strong&gt;融合方式&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;简单的特征拼接&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;空间投影&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: left&#34;&gt;时空注意力融合&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;v2-的技术细节&#34;&gt;V2 的技术细节&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;骨干网络&lt;/strong&gt;：对齐的 ResNet-34，通过 LSS（Lift-Splat-Shoot）把 6 颗摄像头的图像&amp;quot;拍扁&amp;quot;到地面&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;时序对齐&lt;/strong&gt;：把过去 2 秒的 BEV 特征根据自车运动进行&amp;quot;空间平移&amp;quot;，让不同时间点的特征在同一个坐标系下重叠&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;九规划逻辑的信息流&#34;&gt;九、规划逻辑的信息流&#xA;&lt;/h2&gt;&lt;h3 id=&#34;三重交互机制&#34;&gt;三重交互机制&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;DCA（全景扫描）&lt;/strong&gt;：轨迹看 BEV 特征图，快速定位周围是大街还是小巷&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Agent-Wise Attention&lt;/strong&gt;：轨迹与 50 个障碍物 Query 进行 1 对 1 谈话，进行厘米级碰撞检测&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Map-Wise Attention&lt;/strong&gt;：轨迹与车道线向量对齐，确保遵守交通规则&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;生动比喻&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;BEV 交互是让你&amp;quot;别撞墙&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;Map 交互是让你&amp;quot;守交规&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十前后帧一致性如何拒绝精神分裂&#34;&gt;十、前后帧一致性：如何拒绝&amp;quot;精神分裂&amp;quot;？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;1-时序特征融合&#34;&gt;1. 时序特征融合&#xA;&lt;/h3&gt;&lt;p&gt;输入包含过去几帧（比如过去 2 秒）的图像或点云，通过 Temporal Attention 把过去的特征&amp;quot;存&amp;quot;在当前特征向量里。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;比喻：你开车时，脑子里其实存着前 2 秒路口的样子，你看的是一部&amp;quot;连贯的电影&amp;quot;。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h3 id=&#34;2-anchors-作为定海神针&#34;&gt;2. Anchors 作为&amp;quot;定海神针&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;64 个锚点（直行、左转等模板）是固定不变的。每一帧都从相同的锚点出发，起步点不乱跳。&lt;/p&gt;&#xA;&lt;h3 id=&#34;3-截断扩散的功劳&#34;&gt;3. 截断扩散的功劳&#xA;&lt;/h3&gt;&lt;p&gt;推理时只走 2 步（甚至 1 步），步数越少，生成过程就越接近确定性逻辑。&lt;/p&gt;&#xA;&lt;h3 id=&#34;4-grpo-带来的决断力&#34;&gt;4. GRPO 带来的&amp;quot;决断力&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;通过组内对比，极大拉开了&amp;quot;好路径&amp;quot;和&amp;quot;坏路径&amp;quot;的分数差距，让决策变得非常&amp;quot;笃定&amp;quot;。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十一实验结果&#34;&gt;十一、实验结果&#xA;&lt;/h2&gt;&lt;p&gt;在自动驾驶界最有名的考场 &lt;strong&gt;NAVSIM&lt;/strong&gt; 进行考试：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;PDMS 分数&lt;/strong&gt;：91.2，刷新世界纪录&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;骨干网络&lt;/strong&gt;：即使使用较小的 ResNet-34，表现也超过了拥有巨大骨干网络的模型&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十二关键技术实现multi-head-attention&#34;&gt;十二、关键技术实现：Multi-Head Attention&#xA;&lt;/h2&gt;&lt;h3 id=&#34;为什么要用多头&#34;&gt;为什么要用多头？&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;单头注意力&lt;/strong&gt;：像一把手电筒，盯着行人看，可能就没注意到红绿灯&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;多头注意力&lt;/strong&gt;：像一个专家顾问团&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;1号头（安全专家）：盯着障碍物和距离&lt;/li&gt;&#xA;&lt;li&gt;2号头（导航专家）：盯着车道线和路标&lt;/li&gt;&#xA;&lt;li&gt;3号头（舒适专家）：盯着路面平整度和坡度&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;核心代码逻辑&#34;&gt;核心代码逻辑&#xA;&lt;/h3&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 多头拆分：把 [batch, seq_len, d_model] 变成 [batch, num_heads, seq_len, head_dim]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;Q &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; Q&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;view(batch_size, &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, num_heads, head_dim)&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;transpose(&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, &lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 计算注意力分数&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;scores &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; torch&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;matmul(Q, K&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;transpose(&lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;, &lt;span style=&#34;color:#f92672&#34;&gt;-&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;)) &lt;span style=&#34;color:#f92672&#34;&gt;/&lt;/span&gt; math&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sqrt(d_k)&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 为什么除以 sqrt(d_k)？&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 防止分数值过大，导致 Softmax 进入饱和区（梯度消失）&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 就像&amp;#34;音量调节旋钮&amp;#34;，让模型保持&amp;#34;理智&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;十三个人思考与疑问&#34;&gt;十三、个人思考与疑问&#xA;&lt;/h2&gt;&lt;h3 id=&#34;值得学习的亮点&#34;&gt;值得学习的亮点&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;锚点机制&lt;/strong&gt;：把扩散模型的&amp;quot;混沌&amp;quot;约束在 64 个意图分区里，既保证多样性又控制计算量&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;GRPO 的巧妙应用&lt;/strong&gt;：借用 DeepSeek-R1 的技术，解决了模仿学习&amp;quot;不识好歹&amp;quot;的问题&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;乘法噪声&lt;/strong&gt;：一个看似微小的数学改变，却让轨迹在物理平滑度上直接降维打击前代&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h3 id=&#34;待探索的问题&#34;&gt;待探索的问题&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;GRPO 的组大小如何选择&lt;/strong&gt;？8 条还是 16 条？对性能和效率的影响如何？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Mode Selector 是否可以引入时序记忆&lt;/strong&gt;，进一步稳定决策？&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;如何处理极端场景&lt;/strong&gt;（如突然出现的障碍物）？&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;参考链接&#34;&gt;参考链接&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;论文原文：DiffusionDriveV2&lt;/li&gt;&#xA;&lt;li&gt;相关工作：DiffusionPlanner, DiffusionDriveV1, DeepSeek-R1 (GRPO)&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;p&gt;&lt;em&gt;本笔记基于 AI 辅助的论文讨论整理而成，保留了讨论中的生动比喻和技术细节。&lt;/em&gt;&lt;/p&gt;&#xA;</description>
        </item></channel>
</rss>
