CLEAR: 认知与潜在评估驱动的自适应路由——端到端自动驾驶的分工哲学

论文全称：CLEAR: Cognition and Latent Evaluation for Adaptive Routing in End-to-End Autonomous Driving 作者：Yining Xing, Zehong Ke, Zhiyuan Liu, Yanbo Jiang, Wenhao Yu, Jianqiang Wang 发表时间：2026 年 6 月 4 日 | arXiv:2606.06219

一、论文要解决的核心问题

端到端自动驾驶长期面临一个两难困境——

难题一：多模态规划。 现实驾驶场景充满歧义，同一个路口可以左转、直行、减速，多条路都是"正确的"。传统的确定性回归只会把所有可能性取平均，生成一条"物理上不存在"的鬼路径。

难题二：速度与质量的矛盾。 扩散模型（Diffusion Model）能很好地捕捉多模态分布，但每次预测需要数十乃至数百次迭代，远超 100 毫秒的控制预算，根本无法实时部署。

难题三：LLM 用作生成器的代价。 多模态大语言模型理解交通语义，但直接让它生成轨迹坐标会陷入自回归，延迟不可接受，输出格式也不稳定。

CLEAR 的破局思路是：把"极快生成"和"深度语义推理"彻底分工——LLM 只负责思考，不负责输出；生成器只需一步前向传播，不做任何迭代。最终在 NAVSIM v1 基准上取得 PDMS 93.7 的最优成绩，推理速度达到 99 FPS。

二、整体架构：四件套分工

前视图像 + 导航指令
        │
        ├──→ Drive-JEPA（冻结）──────────────────→ 视觉几何特征
        │
        └──→ Qwen 3.5 0.8B（全量微调）──────────→ 隐藏状态
                        │
          ┌─────────────┴──────────────┐
          ↓                            ↓
   自适应调度器                  交叉注意力评分器
   （选 α 和 N）                  （给候选轨迹打分）
          │
          ↓ 场景摘要 + α
   CLEAR 解码器（MLP-Mixer）
   单步漂移 → N 条候选轨迹
          │
          ↓ PCA 投影
   N 条物理轨迹 → 取最高分 → 执行

Drive-JEPA 是"眼睛"，Qwen 是"大脑"，MLP-Mixer 是"手"，评分器是"终审法官"。这四个模块各司其职，LLM 的隐藏状态被复用于两个下游任务（调度器 + 评分器），只跑一次 LLM 前向传播即可服务全部流程。

三、视觉骨干：Drive-JEPA

3.1 为什么不用普通的 ViT 或 MAE

传统 MAE 在像素空间重建被遮挡区域，网络被迫学习"天空是什么颜色、路面纹理是什么样"这些对驾驶决策毫无价值的细节，浪费了大量模型容量。Drive-JEPA 选择在潜在特征空间做预测，把无关的像素细节过滤掉，只保留场景的语义和几何结构。

3.2 V-JEPA 预训练：用"完形填空"逼出理解能力

第一步：切 patch。 ViT（Vision Transformer）把视频帧切成 16×16 像素的小方块（patch），每个 patch 压缩成一个特征向量，就像 NLP 里把每个词变成词向量。一段视频 → 几百个时空 patch token。

第二步：随机遮挡。 随机挡住一部分 patch（遮挡比例 50%～90%），被遮的区域就是网络的"考题"。这强迫网络真正理解场景结构，而不是靠记忆死背。

第三步：双分支架构。

上下文分支（可训练）：
  被遮挡的视频 x → 编码器 E_θ（ViT） → 上下文特征
                                              ↓
                        预测器 P_φ（ViT）+ 位置 token Δ_y
                                              ↓
                                    预测目标区域的特征

目标分支（停止梯度）：
  完整视频 y → EMA 编码器 E_θ̄ → 目标特征（正确答案）

损失函数只在被遮位置计算 L1 距离：

$$\min_{\theta,\phi} \left\| P_\phi(\Delta_y, E_\theta(x)) - \text{sg}(E_{\bar{\theta}}(y)) \right\|_1$$

为什么要 EMA 目标编码器，而不是直接用同一个编码器？

如果用同一个编码器既出题又答题，两边同步更新，网络会找到捷径：把所有输出变成同一个向量，loss 永远为零——但什么都没学到，这叫表示坍塌。

EMA（指数移动平均）的更新规则：

$$\bar{\theta} \leftarrow m \cdot \bar{\theta} + (1 - m) \cdot \theta \quad (m \approx 0.996)$$

目标编码器是上下文编码器参数的"慢速历史平均"，变化极其缓慢。这给预测器提供了一个稳定可追的目标，彻底避免坍塌。初始化时，两个编码器的参数完全相同（θ̄₀ = θ₀），从同一起点出发，之后通过不同的更新规则逐渐分开。

实际使用中，Drive-JEPA 进一步用 V-JEPA 2 的公开预训练权重来初始化 θ₀，在 208 小时的驾驶视频（来自 CoVLA、DrivingDojo、OpenScene）上做领域适应微调，视频分辨率 512×256、帧率 2Hz。

和"预测未来帧"方法的对比：

预测遮挡特征（JEPA 风格）和在潜在空间预测未来帧（世界模型风格，如 LeWM）都避免了像素重建的浪费。两者各有侧重：

JEPA 的优势在于训练稳定（任务确定性强，无多模态歧义）、特征语义质量高、计算高效。
潜在空间时序预测的优势在于同时建模了空间和时序演变，监督信号更丰富。“预测下一帧特征"要求模型同时理解"现在有什么"和"接下来会怎么变”，理论上学到的表示对规划更全面。

但"监督信号更强"不等于"一定学得更好"——时序预测面临未来多模态歧义问题：同一个当前帧的下一帧可能有多种完全不同的合理结果（直行、转弯、刹车），确定性预测被迫对所有可能性取平均，反而学到模糊表示。解决这个问题需要多模态目标设计——不强迫网络预测唯一未来，而是用 min-over K 或 conditional 等方式允许多种可能，只要有一个足够准确就算对。这正是当前领域的前沿方向，也是 CLEAR 在轨迹生成层面要解决的同一个问题。

3.3 ViT vs ResNet：为什么遮挡预测天然偏爱 ViT

ViT 把图像切成 patch token，遮挡某些 token 等于直接丢弃，干净利落。ResNet 没有 token 概念，遮挡要么在输入像素层面涂黑（卷积会污染边界特征），要么在特征图层面置零（感受野粒度粗糙，边界模糊），都需要额外工程改造。

更根本的差异在于感受野：ViT 的自注意力让每个 patch 第一层就能看到所有其他 patch，全局上下文即时可用，对猜测被遮区域极为重要。ResNet 的卷积是局部的，全局信息要经过很多层才能传播。未来帧预测的时序建模同样更适合 ViT 的显式位置编码。

ResNet 唯一的优势在于：高分辨率下计算量是线性增长（而非 ViT 的二次方），且内置平移不变性的归纳偏置让它在小数据上表现更好。但对于驾驶视频预训练这个场景，ViT 是更自然的选择。

四、潜在空间中的单步条件漂移

这是整篇论文技术上最核心的部分。

4.1 潜在空间是什么

把一条驾驶轨迹（比如未来 8 帧的位置序列）想象成一个高维向量。一个 VAE（变分自编码器）把这个向量"压缩"成潜在空间里的一个坐标点。语义相近的轨迹（“缓缓左转"和"慢慢左转”）在潜在空间里挨得近，风格迥异的（“急刹车"和"全速冲”）则相距甚远。

VAE 还带有一个辅助动作分类头，让潜在空间围绕有行为意义的驾驶基元（左转、直行、右转、减速…）有序组织，而不是杂乱无章。

4.2 为什么要"漂移"，不直接回归

扩散模型从随机噪声出发，经过数十步迭代去噪才能到达合理轨迹，太慢。CLEAR 的单步漂移做的是：直接把候选点推向目标区域，只走一步。就像已经知道大概方向，大步走过去，而不是在黑暗里一点点摸索。

4.3 目标点的构成：α 是核心旋钮

训练时每个候选轨迹 $i$ 有自己的漂移目标：

$$\mathbf{A}_i = (1-\alpha)\cdot\mathbf{V}_{\text{pos}(i)} + \alpha\cdot\mathbf{V}_{\text{GT}}$$

可行目标点 $\mathbf{V}_{\text{pos}(i)}$（绿色吸引子）：多个合理的参考路径，代表"这个场景里各种可行的开法"。来源通常是数据集中几何可行的邻近轨迹，或用运动学规则批量生成后过滤的候选路径。
专家真值 $\mathbf{V}_{\text{GT}}$（紫色星星）：人类专家驾驶的标准轨迹。
α：混合系数，由 LLM 驱动的调度器动态决定。

当 α → 0：每个候选被各自的可行目标拉向不同方向，多样性最大，适合复杂路口。当 α → 1：所有候选向专家真值收拢，精度最高，适合高速直行。

关键设计：专家真值只在训练时存在。 推理时，解码器已经通过训练把"怎么漂"这个能力烙进了权重里，直接根据视觉特征和 α 一步输出 N 条候选，不再需要 GT 参与计算。α 在推理时的作用变成：通过 adaLN 注入解码器，调节生成分布的形状（散或聚）。

4.4 可行目标点和候选轨迹的对应关系

N 个候选轨迹和 M 个可行目标点之间是一一对应、动态软分配的。每个候选轨迹 $i$ 被分配给一个吸引子 $\text{pos}(i)$，但分配不是死绑定的——训练中每个样本都动态地用匹配算法（匈牙利匹配或最近邻）重新分配，目标是让所有候选的整体覆盖度最大。这种软分配防止了"候选 1 永远学左转"导致的模式退化。

当 N < M 时，N 个候选从更大的池子里各挑一个吸引子，没被挑到的吸引子本次不参与。当 N > M 时，多个候选争抢同一吸引子，但排斥力会把它们推开，在同一区域附近形成细粒度多样性。

匹配和 loss 的计算都发生在潜在空间里，不是在轨迹坐标空间里。

4.5 排斥机制：防止所有候选堆在一起

只有吸引力不够——如果多个候选被分配到同一吸引子，它们会完全重叠。排斥 loss 直接惩罚潜在空间里太近的候选对：

$$\mathcal{L}_{\text{repel}} = \sum_{i \neq j} \max(0,\ \text{margin} - \|\mathbf{z}_i - \mathbf{z}_j\|)$$

完整训练 loss：

$$\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{drift}} + \lambda \cdot \mathcal{L}_{\text{repel}}$$

吸引力 + 排斥力的对立统一，让 N 条候选自动"占领"潜在空间的不同区域，既不重复，又不飞出合理范围。

4.6 PCA 投影：给轨迹加"合法性滤网"

MLP-Mixer 在潜在空间工作，最终需要把潜在向量翻译成物理坐标（每帧的 x、y 位置）。最朴素的做法是用 MLP 直接映射，但这样可能生成物理上不可能的轨迹（两帧之间位移 50 米、曲率违反车辆转弯半径）。

PCA 投影的做法：在训练前离线对大量专家轨迹做主成分分析，找到这些轨迹变化最集中的 k 个方向（主成分）：

$$\mathbf{P} = [\mathbf{p}_1, \mathbf{p}_2, \dots, \mathbf{p}_k] \in \mathbb{R}^{D \times k}$$

解码器不直接输出轨迹坐标，而是输出 k 维系数向量 $\mathbf{c}$，然后重建：

$$\text{轨迹} = \bar{\mathbf{x}} + \mathbf{P} \cdot \mathbf{c}$$

其中 $\bar{\mathbf{x}}$ 是专家轨迹均值。结果天然是"专家轨迹的线性组合"，永远在合法轨迹的流形上。k 通常取覆盖 95%～99% 方差的最小值，对于驾驶轨迹往往只需 10～20 维——这说明驾驶轨迹的内在维度其实很低，车的运动规律有很强的结构性。

PCA 基底 P 和均值 $\bar{\mathbf{x}}$ 在推理时是固定的常数矩阵，计算量极小（一次矩阵乘法），不增加延迟。

五、CLEAR 解码器：MLP-Mixer 详解

5.1 MLP-Mixer 的来历

MLP-Mixer 由 Google Brain 的 Ilya Tolstikhin 等 12 位作者提出，发表于 NeurIPS 2021（arXiv:2105.01601）。其核心观点颇具挑衅性：CNN 的卷积和 Transformer 的自注意力对于视觉任务都是"足够的"，但都不是"必要的"——只用 MLP 也能在图像分类上取得有竞争力的结果。有趣的是，作者之一 Alexey Dosovitskiy 正是 ViT 的第一作者，提出"注意力统治视觉"的人，转头参与证明了"其实不用注意力也行"。

5.2 核心思想：两个方向的信息流动

MLP-Mixer 的输入是一个二维矩阵 $X \in \mathbb{R}^{N \times C}$，在 CLEAR 里：

$N$：候选轨迹数量（比如 5 条）
$C$：每条候选的特征维度

把它想象成一张表格：每行是一条候选轨迹，每列是一个特征维度。Transformer 用自注意力让所有 token 互相通信，计算量是 $O(N^2)$。MLP-Mixer 把这件事拆成两个更便宜的操作：

纵向通信（跨行）：Token-mixing MLP   → 候选之间互相感知
横向通信（跨列）：Channel-mixing MLP → 每个候选内部整合特征

两个方向交替做，计算量只有 $O(N \cdot C)$。对于 N 很小（4～8 条候选）的场景，自注意力的 $O(N^2)$ 优势体现不出来，MLP-Mixer 更轻量，完全匹配 99 FPS 的目标。

5.3 Token-mixing：候选之间的"串联"

X [N×C]
  ↓ 转置 → X^T [C×N]
  ↓ 对每行独立做 MLP_token（共享权重）
  ↓ 转置回来
[N×C]
  ↓ + 残差 X

先转置，让"同一特征维度下所有候选的值"排成一行，然后对每行做共享 MLP。操作完再转置回来，加残差。这一步让每个候选能"看见"其他候选的存在，是排斥机制在网络结构层面的体现——网络在这里学会了"我的邻居在哪，我该往哪偏"。

5.4 Channel-mixing：每个候选自己的"并联"

对每一行（每个候选）独立做 MLP，让该候选自己的 C 个特征维度整合信息，没有跨 token 交互。中间维度通常是 4C，类似 Transformer FFN 的扩展层。

5.5 adaLN：α 如何渗透进每一层

普通 Layer Norm 的缩放参数 γ 和偏移参数 β 是固定的可学习值。adaLN（自适应层归一化）让它们动态生成：

$$\gamma, \beta = \text{MLP}_{\text{ada}}(\alpha)$$

$$\text{adaLN}(x, \alpha) = \gamma \cdot \frac{x - \mu}{\sigma} + \beta$$

α 在 Mixer 的每一层都注入一次，整个网络的行为随 α 平滑变化——α=0.1 时输出多样，α=0.9 时输出聚拢。这个设计借鉴自 DiT（扩散 Transformer）。

一层 Mixer 的完整数学：

$$Y = X + \text{MLP}_{\text{token}}\!\left(\text{adaLN}(X, \alpha)^T\right)^T$$

$$Z = Y + \text{MLP}_{\text{channel}}\!\left(\text{adaLN}(Y, \alpha)\right)$$

5.6 视觉特征如何注入

Drive-JEPA 输出密集的 token 序列（如 196 个 patch token），不能直接喂给 MLP-Mixer（太长，格式不匹配）。压缩方式是交叉注意力：

可学习的场景查询 Q（比如 16 个固定向量，训练时学习）
        ↓ 交叉注意力 ↑
视觉特征 token 序列（Key / Value）
        ↓
16 个场景摘要向量（拼接/池化成一个向量 s）

场景查询是可学习的，网络会自动学会"哪些视觉信息对轨迹生成有用"——前方障碍物位置、道路边界、他车朝向。

视觉特征注入 MLP-Mixer 的完整方式是两步叠加：

第一步（进 Mixer 之前）：场景摘要与 N 个可学习候选查询向量拼接，线性投影，给每个候选"预热"：

初始输入 = Linear([q_i; s])，对每个候选 i

第二步（Mixer 每层内）：条件向量 c = MLP([s; α]) 通过 adaLN 持续注入每一层，场景信息贯穿始终不被稀释。

5.7 N 个模态是怎么来的

MLP-Mixer 的输入不是"N 条已有的轨迹"，而是 N 个可学习的查询向量（网络参数，随机初始化），代表 N 个候选轨迹的占位符。训练结束后，这些向量在参数空间里自然分化出不同的"专业分工"——某个向量负责左转模态，某个负责直行，以此类推。

多样性由三重机制共同保证：token-mixing 让候选互相感知，排斥 loss 直接惩罚相似，漂移 loss 的软分配把不同候选拉向不同目标。

5.8 完整解码流程

输入：视觉特征图 + 自车历史位姿 + 导航指令 + α
        ↓
交叉注意力压缩 → 场景摘要向量 s
        ↓
Linear([q_i; s]) → N 个初始候选向量
        ↓
MLP-Mixer 主干（L 层，每层 adaLN 注入 [s; α]）
  [Token-mixing] ← 候选间排斥感知
  [Channel-mixing] ← 每个候选内部整合
        ↓
N 个输出向量 → MLP → N 个 k 维 PCA 系数
        ↓
轨迹_i = x̄ + P × c_i → N 条物理轨迹

六、LLM 的两个角色

6.1 Qwen 3.5 0.8B：不说话，只思考

LLM 的价值不在于输出文字，而在于隐藏状态——最后几层的激活值已经编码了场景语义、交通规则和风险先验，可以直接作为特征向量使用，完全不需要解码成自然语言。一次前向传播，隐藏状态复用于两个下游任务。

6.2 角色一：自适应调度器（决定 α 和 N）

训练时预先定义好若干离散方案，比如：

方案	α	N	适合场景
1	0.1	8	复杂路口，需多样性
2	0.3	6	一般城区
3	0.5	4	均衡
4	0.7	4	较简单
5	0.9	2	高速直行，要精准

调度器是一个轻量级 Transformer 解码器，把 LLM 隐藏状态映射为方案上的 softmax 分布，推理时 argmax 选方案。

训练调度器的监督标签怎么构造？ 对每个场景跑遍所有预定义方案，每个方案生成 N 条候选，用 NAVSIM 的仿真器对每条候选算 PDMS 分，取该方案下最好的那条成绩（max over N）作为该方案的得分。PDMS 最高的方案成为这个场景的监督标签。

6.3 角色二：交叉注意力评分器（从 N 条候选里选最优）

候选轨迹特征 → 作为 Query
LLM 隐藏状态 → 作为 Key / Value（语义记忆）
        ↓ 交叉注意力
每条候选输出标量分数 S_i
        ↓ argmax → 执行最高分轨迹

评分器用两个 loss 联合训练：

MSE loss：||S_i - PDMS_i||²，让预测分数贴近真实 PDMS。
排序 loss：若 PDMS_i > PDMS_j，则惩罚 S_j ≥ S_i，保证相对顺序正确。

两者互补：排序 loss 保证"谁更好"判断正确，MSE loss 保证绝对数值准确。

6.4 对 LLM 角色设计的质疑与反思

这里有几个值得深思的设计问题：

质疑一：评分器也需要几何理解，LLM 够用吗？ 判断"这条轨迹会不会在 3 米后擦到行人"是几何计算问题，LLM 隐藏状态只提供"这个场景有行人，需要谨慎"这类语义先验，缺乏行人在自车坐标系下的精确位置。这也解释了为什么 CLEAR 在 TTC（碰撞时间）和几何相关指标上提升显著，但在 LK（车道保持）和 TL（交通灯合规）上仍有短板。更合理的评分器应该同时融合 LLM 语义特征和视觉几何特征。

质疑二：LLM 隐藏状态可以压缩后作为生成条件 将 LLM 隐藏状态（1024 维）用 MLP 压缩到 128 维再注入解码器，计算量和视觉特征注入完全对称，没有算力障碍。论文选择"LLM 不参与生成、只参与调度和评分"，真正的原因是信息类型差异：LLM 隐藏状态是全局语义混合，缺乏空间对应关系和几何精度，而视觉特征对空间结构的编码更精确。但这并不意味着两者不能联合——将两者都注入解码器是一个合理的改进方向。

质疑三：可以直接用 LLM 隐藏状态 MLP 回归 PCA 系数 LLM 隐藏状态 → MLP → k 维 PCA 系数 → 轨迹，完全绕过 MLP-Mixer，既不自回归也不慢。论文没有做这个消融。理论上可行，但多模态多样性的保证需要额外设计（N 个独立 MLP 头 + 排斥 loss），且几何精度受限于 LLM 特征本身。

这三个质疑共同指向同一个改进方向：让 LLM 语义特征和视觉几何特征在解码器和评分器里都充分融合，而不是严格划分边界。

七、实验结果

7.1 训练流程

训练分三个解耦阶段，确保稳定性：

预训练 VAE + CLEAR 解码器（约 13 万条轨迹，500 epoch）
微调 Qwen 3.5 0.8B（1.7 万场景，15 万组驾驶问答对，20 epoch）
训练调度器 + 评分器（1 万场景，每场景生成大量方案对比数据，100 epoch）

上游 VAE 和 LLM 的参数在第三阶段全部冻结。

7.2 NAVSIM v1 结果（PDMS，越高越好）

方法	TTC	PDMS
ReCogDrive	94.9	90.8
iPad	94.9	91.7
DriveSuprim	95.5	93.5
Drive-JEPA	95.9	93.3
CLEAR（本文）	97.2	93.7

CLEAR 在安全关键指标 TTC 上提升最显著（95.9 → 97.2），说明 LLM 驱动的调度器和评分器有效提升了安全感知规划能力。

7.3 NAVSIM v2 结果（EPDMS，更严苛）

在 ViT/L 规模方法中，CLEAR 取得最高 EPDMS（88.6），在 NC、DAC、EP、TTC、EC 上均领先。但在 LK（车道保持）和 TL（交通灯合规）上仍落后，印证了评分器缺乏几何特征的短板。

7.4 消融实验

将 LLM 评分器替换为仅视觉特征评分，或将自适应调度改为固定 α=0.5、N=64，性能均出现明显下滑。每个组件都不可或缺。

八、局限性与未来方向

当前短板：

车道保持（LK）和交通灯合规（TLC）指标仍有差距，纯前视图像 + 高层导航指令在需要精确感知车道线和信号灯的场景下力有不逮。
评分器只用 LLM 语义特征，缺乏几何感知能力。

自然的改进方向：

引入高清地图、多摄像头融合等更丰富的感知输入。
在解码器和评分器里同时融合 LLM 语义特征和视觉几何特征，打破当前"LLM 管语义、视觉管生成"的硬划分。
在视频预训练阶段引入更显式的时序建模（如潜在空间时序预测 + 多模态目标），弥补 JEPA 风格预训练的时序短板。

九、一句话总结

CLEAR 证明了一件事：高保真的多模态规划不需要密集几何标注，不需要迭代采样，也不需要巨无霸 LLM。一个 0.8B 的小模型，配上精心设计的"隐藏状态复用"策略，就足以驱动一个跑到 99 FPS 的安全驾驶系统，还能拿下 NAVSIM 榜首。

论文最令人击节称赏之处，在于它没有去发明更大的模型，而是极其精巧地重新分工——让 LLM 不说话只思考，把思考的成果转化为生成器的指挥棒，在速度、安全性和多样性之间找到了一个漂亮的平衡点。