<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>TrajectoryPlanning on 朝花夕拾</title>
        <link>https://example.org/tags/trajectoryplanning/</link>
        <description>Recent content in TrajectoryPlanning on 朝花夕拾</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <lastBuildDate>Tue, 24 Mar 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://example.org/tags/trajectoryplanning/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>WorldDrive</title>
            <link>https://example.org/post/robotics/e2e/world-drive/</link>
            <pubDate>Tue, 24 Mar 2026 00:00:00 +0800</pubDate>
            <guid>https://example.org/post/robotics/e2e/world-drive/</guid>
            <description>&lt;h1 id=&#34;worlddrive-bridging-scene-generation-and-planning&#34;&gt;WorldDrive: Bridging Scene Generation and Planning&#xA;&lt;/h1&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;论文链接&lt;/strong&gt;: &lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/pdf/2603.14948&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;&#xA;    &gt;https://arxiv.org/pdf/2603.14948&lt;/a&gt;&#xA;&lt;strong&gt;代码开源&lt;/strong&gt;: &lt;a class=&#34;link&#34; href=&#34;https://github.com/TabGuigui/WorldDrive&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;&#xA;    &gt;https://github.com/TabGuigui/WorldDrive&lt;/a&gt;&#xA;&lt;strong&gt;作者团队&lt;/strong&gt;: 澳门大学 × 阿法瑞智能 (Afari Intelligent Drive)&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-研究动机被割裂的导演与赛车手&#34;&gt;💔 研究动机：被割裂的&amp;quot;导演&amp;quot;与&amp;quot;赛车手&amp;quot;&#xA;&lt;/h2&gt;&lt;p&gt;在当前的端到端自动驾驶（E2E-AD）领域中，存在一个巨大的&lt;strong&gt;鸿沟（Schism）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;驾驶世界模型（DWMs）&lt;/strong&gt; 像一位&amp;quot;导演&amp;quot;，能根据当前路况预测并生成未来的视频画面&lt;/li&gt;&#xA;&lt;li&gt;但这位&amp;quot;导演&amp;quot;太关注如何把画面（视觉表征）画得逼真，完全不考虑如何把经验传授给真正负责开车的&amp;quot;赛车手&amp;quot;（运动规划器）&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这就导致&lt;strong&gt;规划器无法继承世界模型的运动表征，大家各玩各的，无法协同&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;核心洞察&#34;&gt;核心洞察&#xA;&lt;/h3&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;&amp;ldquo;能够用来生成未来画面的隐式特征（Latent Features），就应该直接用来决定未来的动作（Planning）！&amp;rdquo;&lt;/strong&gt;&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;WorldDrive 的核心哲学：通过**统一表征（Representation Unification）**搭建桥梁，让&amp;quot;生成&amp;quot;与&amp;quot;规划&amp;quot;无缝协同。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-整体架构两阶段精密耦合&#34;&gt;🏗️ 整体架构：两阶段精密耦合&#xA;&lt;/h2&gt;&lt;p&gt;WorldDrive 将整个系统分成两大阶段：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;阶段一：场景生成（TA-DWM）&#xA;    ↓ 冻结编码器&#xA;阶段二：轨迹规划（Planner + FAR）&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-第一阶段ta-dwm轨迹感知驾驶世界模型&#34;&gt;🛠️ 第一阶段：TA-DWM（轨迹感知驾驶世界模型）&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心目标&#34;&gt;核心目标&#xA;&lt;/h3&gt;&lt;p&gt;打造一个**&amp;ldquo;听指挥的魔法水晶球&amp;rdquo;**——能根据特定轨迹条件生成对应未来场景。&lt;/p&gt;&#xA;&lt;h3 id=&#34;三大精密齿轮&#34;&gt;三大精密齿轮&#xA;&lt;/h3&gt;&lt;h4 id=&#34;-齿轮一3d-causal-vae视觉表征提取&#34;&gt;⚙️ 齿轮一：3D Causal VAE（视觉表征提取）&#xA;&lt;/h4&gt;&lt;p&gt;&lt;strong&gt;技术细节&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;引入 &lt;strong&gt;3D 因果变分自编码器&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;将历史传感器观测数据（连续视频帧）进行时空压缩&lt;/li&gt;&#xA;&lt;li&gt;提取浓缩的&lt;strong&gt;时空视觉隐式特征&lt;/strong&gt; \(f\)&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;生动理解&lt;/strong&gt;：&#xA;这个特征 \(f\) 不是简单的图片拼凑，而是包含了&amp;quot;前车在减速&amp;quot;、&amp;ldquo;左边有行人在走动&amp;quot;等物理世界时空动态的&amp;quot;超级压缩包&amp;rdquo;。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-深度讨论为什么必须用-vae-而非-resnet&#34;&gt;🤔 深度讨论：为什么必须用 VAE 而非 ResNet？&#xA;&lt;/h2&gt;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;问题&lt;/strong&gt;：为什么要用 VAE 提取视觉特征，用 ResNet 是不是也行？&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;如果只从&amp;quot;提取特征&amp;quot;这四个字来看，ResNet（残差网络）确实是老大哥，在传统的自动驾驶感知任务里（比如识别车道线、检测障碍物）用得非常多。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;但是，在 WorldDrive 这种&amp;quot;世界模型&amp;quot;的架构里，用普通的 ResNet 绝对不行！必须用 VAE（而且是 3D Causal VAE）。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;为什么？因为两者的&amp;quot;基因&amp;quot;完全不同——ResNet 是用来做**判别（Discriminative）&lt;strong&gt;的，而 VAE 是用来做&lt;/strong&gt;生成（Generative）**的。我们用三个极具画面感的比喻来拆解原因：&lt;/p&gt;&#xA;&lt;h3 id=&#34;-致命原因-1resnet-是碎纸机vae-是压缩包&#34;&gt;🚫 致命原因 1：ResNet 是&amp;quot;碎纸机&amp;quot;，VAE 是&amp;quot;压缩包&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;（能否还原画面的本质区别）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;如果用 ResNet&lt;/strong&gt;：ResNet 是一种&amp;quot;单向通道（Encoder-only）&amp;quot;。它把高清图片输进去，一层层剥离细节，最后输出一堆极其抽象的特征向量（比如告诉你：这里有辆车、那里有个人）。这就好比把一份机密文件放进碎纸机，碎成纸屑后，你确实知道&amp;quot;这是一份文件&amp;quot;，但&lt;strong&gt;你永远无法把纸屑重新拼成原来那张写满字的纸&lt;/strong&gt;。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;为什么必须用 VAE&lt;/strong&gt;：VAE 全称是&amp;quot;变分自编码器（Variational Autoencoder）&amp;quot;。它不仅有一个编码器（Encoder，压缩特征），还自带一个&lt;strong&gt;解码器（Decoder，还原特征）&lt;/strong&gt;！世界模型（TA-DWM）的核心任务之一是**&amp;ldquo;生成未来的视频&amp;rdquo;**。模型在隐空间里推演完未来后，必须靠 VAE 的解码器把这些抽象的隐特征（Latent）&lt;strong&gt;重新解压缩、渲染成高清的 RGB 视频帧&lt;/strong&gt;。用 ResNet？推演完未来之后，你就只能看着一堆数字干瞪眼，根本画不出视频来。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-致命原因-2扩散模型dit有严重的强迫症&#34;&gt;🎲 致命原因 2：扩散模型（DiT）有&amp;quot;严重的强迫症&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;（特征空间的平滑度与分布）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;ResNet 的特征空间（千沟万壑）&lt;/strong&gt;：ResNet 提取出的特征，在数学空间里是离散的、毫无分布规律的（只要能把猫和狗分开就行）。如果你把这种特征喂给扩散模型（Diffusion Model），扩散模型会彻底迷失，因为它无法在一个坑坑洼洼、没有边界的空间里稳定地&amp;quot;加噪&amp;quot;和&amp;quot;去噪&amp;quot;。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;VAE 的特征空间（丝滑的平原）&lt;/strong&gt;：VAE 里的&amp;quot;V&amp;quot;（Variational，变分）是它的灵魂。它在压缩特征时，会强行施加一个数学约束（通常是强制特征服从标准正态分布/高斯分布）。这相当于把杂乱无章的特征，整理成了一个&lt;strong&gt;平滑、连续、有规律的&amp;quot;多维高斯球体&amp;quot;&lt;/strong&gt;。在这个完美的隐空间（Latent Space）里，TA-DiT 扩散模型才能极其顺滑地进行前向加噪和反向去噪。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;💡 这就是目前所有顶流 AI 视频/生图模型（如 Sora、Stable Diffusion）全都必须依赖 VAE 的根本原因——&lt;strong&gt;Latent Diffusion 范式&lt;/strong&gt;。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h3 id=&#34;-致命原因-3时间维度的因果律&#34;&gt;⏳ 致命原因 3：时间维度的&amp;quot;因果律&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;（3D Causal VAE vs 2D ResNet）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;ResNet 是&amp;quot;拍立得&amp;quot;（2D 空间）&lt;/strong&gt;：传统的 ResNet 只能一张一张地处理单帧图片，它不懂什么叫&amp;quot;时间流逝&amp;quot;，更不懂&amp;quot;前一秒物体在哪，后一秒去了哪&amp;quot;。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;3D Causal VAE 是&amp;quot;时空穿梭机&amp;quot;&lt;/strong&gt;：&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;3D&lt;/strong&gt;：它不仅在空间上（长宽）压缩图片，还在&lt;strong&gt;时间（Temporal）维度&lt;/strong&gt;上压缩视频流！比如把 8 帧视频压缩成 2 个时间戳的特征，大幅降低了 DiT 预测未来的计算负担。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Causal（因果）&lt;/strong&gt;：这是自动驾驶的保命机制。因果卷积保证了模型在提取第 \(T\) 秒的特征时，&lt;strong&gt;绝对不能偷看 \(T+1\) 秒的画面&lt;/strong&gt;（不能违背因果律）。这就确保了特征是严格按照时间顺序演进的，能够无缝对接给自动驾驶的实时推理系统。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-总结一下&#34;&gt;💡 总结一下&#xA;&lt;/h3&gt;&lt;p&gt;如果你只是想让车&amp;quot;看懂现在有什么&amp;quot;（纯感知/规划任务），用 ResNet 或类似的纯 Encoder 没毛病。&lt;/p&gt;&#xA;&lt;p&gt;但 WorldDrive 的野心是**&amp;ldquo;预演未来（生成视频）+ 指导开车（规划）&amp;rdquo;**。这就要求它的特征空间必须具备三大条件：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;能双向解压缩&lt;/strong&gt;（为了画出视频）&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;绝对平滑、符合高斯分布&lt;/strong&gt;（为了伺候好扩散模型）&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;包含时空动态且不破坏因果律&lt;/strong&gt;（为了符合物理世界法则）&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;这三条，ResNet 一条都做不到，而 3D Causal VAE 完美契合。&lt;/strong&gt; 这就是为什么它必须作为 WorldDrive 的第一道大门，把现实世界转化为&amp;quot;魔法水晶球&amp;quot;能看懂的高维隐空间密码！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h4 id=&#34;-齿轮二轨迹词表与双编码器运动表征构建&#34;&gt;⚙️ 齿轮二：轨迹词表与双编码器（运动表征构建）&#xA;&lt;/h4&gt;&lt;p&gt;这是 TA-DWM &lt;strong&gt;最核心的技术护城河&lt;/strong&gt;！&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;轨迹词表（Trajectory Vocabulary）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;使用 &lt;strong&gt;K-Means 聚类&lt;/strong&gt;对海量真实驾驶数据进行聚类&lt;/li&gt;&#xA;&lt;li&gt;生成 &lt;strong&gt;256 个轨迹锚点（Anchors）&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;形成一本&amp;quot;256词标准动作新华字典&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;双编码器设计&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;Anchor Encoder (\(\mathcal{E}_a\))&lt;/strong&gt;：把选中的标准动作（如&amp;quot;左转&amp;quot;）提取出基础特征&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Offset Encoder (\(\mathcal{E}_o\))&lt;/strong&gt;：提取真实轨迹与标准轨迹的细微残差特征&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;特征融合&lt;/strong&gt;： \(c = \mathcal{E}_a + \mathcal{E}_o\)&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;生动理解&lt;/strong&gt;：&#xA;就像买西服，\(\mathcal{E}_a\) 是挑&amp;quot;L码标准版&amp;quot;，\(\mathcal{E}_o\) 是裁缝量体裁衣&amp;quot;袖子缩短1厘米&amp;quot;。&lt;/p&gt;&#xA;&lt;h4 id=&#34;-齿轮三ta-dit梦境生成器&#34;&gt;⚙️ 齿轮三：TA-DiT（梦境生成器）&#xA;&lt;/h4&gt;&lt;p&gt;&lt;strong&gt;技术细节&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;基于 &lt;strong&gt;轨迹感知扩散 Transformer&lt;/strong&gt; 架构&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;训练时加噪&lt;/strong&gt;：将真实未来画面变成目标隐特征 \(z_0\)，加高斯噪声&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;去噪生成&lt;/strong&gt;：在还原过程中，必须参考两个条件：&#xA;&lt;ol&gt;&#xA;&lt;li&gt;历史视觉特征包 \(f\)&lt;/li&gt;&#xA;&lt;li&gt;意图字典特征 \(c\)&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;关键特性 - 运动敏感度（Motion Sensitivity）&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;模型具备&amp;quot;动作可控性&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;输入的轨迹差别越大，生成的未来场景偏差越大&lt;/li&gt;&#xA;&lt;li&gt;在 nuScenes 上达到 &lt;strong&gt;FID 12.8, FVD 131.7&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-深度讨论为什么要用-anchor--offset&#34;&gt;🤔 深度讨论：为什么要用 Anchor + Offset？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;问题为什么不直接编码-gt-轨迹&#34;&gt;问题：为什么不直接编码 GT 轨迹？&#xA;&lt;/h3&gt;&lt;p&gt;直接编码 Ground Truth 连续坐标会引发几场&amp;quot;算法灾难&amp;quot;：&lt;/p&gt;&#xA;&lt;h3 id=&#34;-痛点-1致命的均值回归regression-to-the-mean&#34;&gt;🚨 痛点 1：致命的&amp;quot;均值回归&amp;quot;（Regression to the Mean）&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;场景&lt;/strong&gt;：十字路口，既可以左转也可以直行&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;直接回归&lt;/strong&gt;：模型会算出左转和直行的&lt;strong&gt;平均值&lt;/strong&gt;——结果撞向路口中间的隔离带！&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Anchor + Offset&lt;/strong&gt;：问题变成&amp;quot;分类（选大方向）+ 局部回归（微调）&amp;quot;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;输出两个概率：&amp;ldquo;60%选左转词条，40%选直行词条&amp;rdquo;&lt;/li&gt;&#xA;&lt;li&gt;完美保留&lt;strong&gt;多模态性&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-痛点-2大幅降低学习难度&#34;&gt;📉 痛点 2：大幅降低学习难度&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;Coarse-to-Fine 策略&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;连续坐标搜索空间无限大且非线性&lt;/li&gt;&#xA;&lt;li&gt;Anchor 把无限回归问题拆解成&lt;strong&gt;有边界的分类问题 + 小范围回归问题&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;极大提升收敛速度和特征提取稳定性&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-痛点-3方便规划器广撒网&#34;&gt;🎲 痛点 3：方便规划器&amp;quot;广撒网&amp;quot;&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;直接编码&lt;/strong&gt;：纯回归模型只能输出&lt;strong&gt;唯一一条&lt;/strong&gt;确定性轨迹&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Anchor + Offset&lt;/strong&gt;：可瞬间对 256 个锚点打分，输出 &lt;strong&gt;Top-K&lt;/strong&gt; 候选轨迹&lt;/li&gt;&#xA;&lt;li&gt;后续 FAR 对这 K 条路线打分，选出最优解&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-痛点-4给扩散模型提供稳定条件信号&#34;&gt;🎨 痛点 4：给扩散模型提供稳定条件信号&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;Anchor 本质是 &lt;strong&gt;Token（标记）&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;把连续物理轨迹转换成 256 个类似 NLP 的 &lt;strong&gt;Text Tokens&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;DiT 处理 Token 得心应手，当看到&amp;quot;Anchor #42&amp;quot;时立刻知道&amp;quot;这是标准左转&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-训练与推理分布偏移问题&#34;&gt;💥 训练与推理分布偏移问题&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;如果训练时直接编码 GT，推理时用可学习 Query 生成多模态轨迹&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;推理时预测的轨迹带有微小瑕疵&lt;/li&gt;&#xA;&lt;li&gt;连续空间中，微小变化会导致编码器输出巨大偏移&lt;/li&gt;&#xA;&lt;li&gt;世界模型拿到从未见过的&amp;quot;异形特征&amp;quot;，导致 OOD 失败&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;Anchor 的反杀&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;自带**&amp;ldquo;特征量化&amp;rdquo;&lt;strong&gt;和&lt;/strong&gt;&amp;ldquo;容错纠偏&amp;rdquo;**能力&lt;/li&gt;&#xA;&lt;li&gt;只要大方向没错，激活的永远是同一个 Anchor 特征&lt;/li&gt;&#xA;&lt;li&gt;微小抖动只扔给 Offset 处理&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-第二阶段multi-modal-trajectory-planner&#34;&gt;🧭 第二阶段：Multi-modal Trajectory Planner&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心战略完美白嫖冻结特征&#34;&gt;核心战略：完美&amp;quot;白嫖&amp;quot;冻结特征&#xA;&lt;/h3&gt;&lt;p&gt;规划器直接拿来第一阶段训练好的组件（&lt;strong&gt;完全冻结&lt;/strong&gt;）：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;时空视觉编码器&lt;/strong&gt; \(\mathcal{E}_{vis}\)：提取环境画面特征 \(f\)&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;轨迹编码器&lt;/strong&gt; \(\mathcal{E}_{traj}\)：提取动作特征 \(c\)&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;&lt;strong&gt;为什么冻结？&lt;/strong&gt;&#xA;这些编码器为了逼真生成未来视频已被极限压榨，特征包含极其丰富的&amp;quot;物理规律、深度、动态变化甚至被遮挡物体的运动趋势&amp;quot;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;思考与决策流程&#34;&gt;思考与决策流程&#xA;&lt;/h3&gt;&lt;h4 id=&#34;step-1-自车状态查询ego-queries&#34;&gt;Step 1: 自车状态查询（Ego Queries）&#xA;&lt;/h4&gt;&lt;p&gt;收集当前&amp;quot;身体状态&amp;quot;（速度、加速度、转向角等），通过 MLP 投射成 &lt;strong&gt;Ego Queries&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;h4 id=&#34;step-2-transformer-解码器交互&#34;&gt;Step 2: Transformer 解码器交互&#xA;&lt;/h4&gt;&lt;p&gt;Ego Queries 与冻结视觉特征 \(f\) 进行&lt;strong&gt;交叉注意力交互&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&amp;ldquo;左边那辆车是不是要加塞？&amp;rdquo;&lt;/li&gt;&#xA;&lt;li&gt;&amp;ldquo;前方红绿灯是不是快变了？&amp;rdquo;&lt;/li&gt;&#xA;&lt;li&gt;形成**&amp;ldquo;感知上下文&amp;rdquo;**&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;step-3-多模态输出&#34;&gt;Step 3: 多模态输出&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;对 256 个 Anchor 并行输出概率得分&lt;/li&gt;&#xA;&lt;li&gt;预测每个 Anchor 对应的 Offset&lt;/li&gt;&#xA;&lt;li&gt;筛选出 &lt;strong&gt;Top-K&lt;/strong&gt; 候选轨迹&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-终极杀招far未来感知奖励器&#34;&gt;🕷️ 终极杀招：FAR（未来感知奖励器）&#xA;&lt;/h2&gt;&lt;h3 id=&#34;核心问题&#34;&gt;核心问题&#xA;&lt;/h3&gt;&lt;p&gt;扩散模型太慢！为 6 条候选路线渲染 6 段高清视频，车早就撞了。&lt;/p&gt;&#xA;&lt;h3 id=&#34;解决方案面向规划的蒸馏机制&#34;&gt;解决方案：面向规划的蒸馏机制&#xA;&lt;/h3&gt;&lt;h4 id=&#34;-step-1-拜师学艺&#34;&gt;🎓 Step 1: 拜师学艺&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;冻结世界模型作为&amp;quot;导师&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;导师能在隐空间推演物理演变，生成**&amp;ldquo;未来隐特征&amp;rdquo;**&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;-step-2-特征对齐与蒸馏&#34;&gt;🧲 Step 2: 特征对齐与蒸馏&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;FAR 设置一组&lt;strong&gt;可学习的 Future Scene Queries&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;计算学生 Query 特征与导师 Future Latents 的差异&lt;/li&gt;&#xA;&lt;li&gt;逼迫学生对齐导师特征&lt;/li&gt;&#xA;&lt;li&gt;形成&lt;strong&gt;条件反射般的直觉&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;-step-3-实战推理&#34;&gt;⚡ Step 3: 实战推理&#xA;&lt;/h4&gt;&lt;ul&gt;&#xA;&lt;li&gt;世界模型（扩散生成）直接关掉！&lt;/li&gt;&#xA;&lt;li&gt;候选轨迹特征&lt;strong&gt;直接查询&lt;/strong&gt;蒸馏出的未来场景特征&lt;/li&gt;&#xA;&lt;li&gt;轻量 MLP 输出 Reward 分数&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;核心优势&#34;&gt;核心优势&#xA;&lt;/h3&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;极低延迟&lt;/strong&gt;：绕过沉重视频生成，毫秒级响应&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;打破&amp;quot;盲人摸象&amp;quot;&lt;/strong&gt;：站在&amp;quot;未来已经发生的视角&amp;quot;打分&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-far-如何处理-6-条候选轨迹&#34;&gt;🔮 FAR 如何处理 6 条候选轨迹？&#xA;&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;是的，FAR 确确实实预测了 6 种不同的未来！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;h3 id=&#34;query-的多重影分身&#34;&gt;Query 的&amp;quot;多重影分身&amp;quot;&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;可学习 Query 是一组固定维度的高维向量（&amp;ldquo;空白的未来画布&amp;rdquo;）&lt;/li&gt;&#xA;&lt;li&gt;当有 6 条候选轨迹时，Query 瞬间复制成 &lt;strong&gt;6 个 Batch&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;各自领到专属的&amp;quot;动作剧本&amp;quot;（轨迹特征 \(c_i\)）&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;交叉注意力渲染未来&#34;&gt;交叉注意力&amp;quot;渲染&amp;quot;未来&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;Q&lt;/strong&gt;：可学习 Query&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;K, V&lt;/strong&gt;：视觉环境特征 + 轨迹特征的结合体&lt;/li&gt;&#xA;&lt;li&gt;6 组 Query 问出不同问题，被染成不同颜色&lt;/li&gt;&#xA;&lt;li&gt;成功预测 6 种未来&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;为什么不会卡死&#34;&gt;为什么不会卡死？&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;FAR 预测的 6 种未来&lt;strong&gt;全都是数学向量&lt;/strong&gt;，不需要渲染成视频帧&lt;/li&gt;&#xA;&lt;li&gt;GPU 同时算 6 个向量仅是矩阵乘法区别，耗时几毫秒！&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;终局判卷&#34;&gt;终局判卷&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;6 份预演好的隐空间特征&lt;/li&gt;&#xA;&lt;li&gt;轻量 MLP 读取并输出 6 个打分&lt;/li&gt;&#xA;&lt;li&gt;选分数最高的轨迹执行&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-实验结果&#34;&gt;🏆 实验结果&#xA;&lt;/h2&gt;&lt;h3 id=&#34;规划性能&#34;&gt;规划性能&#xA;&lt;/h3&gt;&lt;p&gt;在 &lt;strong&gt;NAVSIM、NAVSIM-v2、nuScenes&lt;/strong&gt; 三个基准测试上：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在仅使用视觉输入的方法中取得&lt;strong&gt;领导地位的规划性能&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;Vision-only SOTA&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;视频生成&#34;&gt;视频生成&#xA;&lt;/h3&gt;&lt;ul&gt;&#xA;&lt;li&gt;保持高保真、受动作控制的视频生成能力&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;FID 12.8, FVD 131.7&lt;/strong&gt; (nuScenes)&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-核心贡献总结&#34;&gt;💡 核心贡献总结&#xA;&lt;/h2&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;表征统一&lt;/strong&gt;：让世界模型的&amp;quot;想象力&amp;quot;与规划器的&amp;quot;行动力&amp;quot;真正知行合一&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Anchor + Offset 范式&lt;/strong&gt;：&#xA;&lt;ul&gt;&#xA;&lt;li&gt;解决多模态均值回归问题&lt;/li&gt;&#xA;&lt;li&gt;提供稳定的条件信号给扩散模型&lt;/li&gt;&#xA;&lt;li&gt;天然具备容错纠偏能力&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;冻结编码器继承&lt;/strong&gt;：规划器直接站在世界模型肩膀上&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;FAR 蒸馏机制&lt;/strong&gt;：把&amp;quot;深思熟虑&amp;quot;的物理规律变成&amp;quot;脱口而出&amp;quot;的肌肉记忆&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-相关链接&#34;&gt;🔗 相关链接&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;[[E2E-AD 端到端自动驾驶概述]]&lt;/li&gt;&#xA;&lt;li&gt;[[Diffusion Model 在自动驾驶中的应用]]&lt;/li&gt;&#xA;&lt;li&gt;[[World Model 世界模型]]&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;一句话总结&lt;/strong&gt;：WorldDrive 巧妙地用&amp;quot;统一表征&amp;quot;搭建了一座桥梁，让能预知未来的世界模型真正成为了规划器的最强辅助，开启了端到端自动驾驶&amp;quot;生成与规划&amp;quot;无缝协同的新篇章！&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;</description>
        </item></channel>
</rss>
