论文全称:CLEAR: Cognition and Latent Evaluation for Adaptive Routing in End-to-End Autonomous Driving 作者:Yining Xing, Zehong Ke, Zhiyuan Liu, Yanbo Jiang, Wenhao Yu, Jianqiang Wang 发表时间:2026 年 6 月 4 日 | arXiv:2606.06219
一、论文要解决的核心问题
端到端自动驾驶长期面临一个两难困境——
难题一:多模态规划。 现实驾驶场景充满歧义,同一个路口可以左转、直行、减速,多条路都是"正确的"。传统的确定性回归只会把所有可能性取平均,生成一条"物理上不存在"的鬼路径。
难题二:速度与质量的矛盾。 扩散模型(Diffusion Model)能很好地捕捉多模态分布,但每次预测需要数十乃至数百次迭代,远超 100 毫秒的控制预算,根本无法实时部署。
难题三:LLM 用作生成器的代价。 多模态大语言模型理解交通语义,但直接让它生成轨迹坐标会陷入自回归,延迟不可接受,输出格式也不稳定。
CLEAR 的破局思路是:把"极快生成"和"深度语义推理"彻底分工——LLM 只负责思考,不负责输出;生成器只需一步前向传播,不做任何迭代。最终在 NAVSIM v1 基准上取得 PDMS 93.7 的最优成绩,推理速度达到 99 FPS。
二、整体架构:四件套分工
前视图像 + 导航指令
│
├──→ Drive-JEPA(冻结)──────────────────→ 视觉几何特征
│
└──→ Qwen 3.5 0.8B(全量微调)──────────→ 隐藏状态
│
┌─────────────┴──────────────┐
↓ ↓
自适应调度器 交叉注意力评分器
(选 α 和 N) (给候选轨迹打分)
│
↓ 场景摘要 + α
CLEAR 解码器(MLP-Mixer)
单步漂移 → N 条候选轨迹
│
↓ PCA 投影
N 条物理轨迹 → 取最高分 → 执行
Drive-JEPA 是"眼睛",Qwen 是"大脑",MLP-Mixer 是"手",评分器是"终审法官"。这四个模块各司其职,LLM 的隐藏状态被复用于两个下游任务(调度器 + 评分器),只跑一次 LLM 前向传播即可服务全部流程。
三、视觉骨干:Drive-JEPA
3.1 为什么不用普通的 ViT 或 MAE
传统 MAE 在像素空间重建被遮挡区域,网络被迫学习"天空是什么颜色、路面纹理是什么样"这些对驾驶决策毫无价值的细节,浪费了大量模型容量。Drive-JEPA 选择在潜在特征空间做预测,把无关的像素细节过滤掉,只保留场景的语义和几何结构。
3.2 V-JEPA 预训练:用"完形填空"逼出理解能力
第一步:切 patch。 ViT(Vision Transformer)把视频帧切成 16×16 像素的小方块(patch),每个 patch 压缩成一个特征向量,就像 NLP 里把每个词变成词向量。一段视频 → 几百个时空 patch token。
第二步:随机遮挡。 随机挡住一部分 patch(遮挡比例 50%~90%),被遮的区域就是网络的"考题"。这强迫网络真正理解场景结构,而不是靠记忆死背。
第三步:双分支架构。
上下文分支(可训练):
被遮挡的视频 x → 编码器 E_θ(ViT) → 上下文特征
↓
预测器 P_φ(ViT)+ 位置 token Δ_y
↓
预测目标区域的特征
目标分支(停止梯度):
完整视频 y → EMA 编码器 E_θ̄ → 目标特征(正确答案)
损失函数只在被遮位置计算 L1 距离:
$$\min_{\theta,\phi} \left\| P_\phi(\Delta_y, E_\theta(x)) - \text{sg}(E_{\bar{\theta}}(y)) \right\|_1$$为什么要 EMA 目标编码器,而不是直接用同一个编码器?
如果用同一个编码器既出题又答题,两边同步更新,网络会找到捷径:把所有输出变成同一个向量,loss 永远为零——但什么都没学到,这叫表示坍塌。
EMA(指数移动平均)的更新规则:
$$\bar{\theta} \leftarrow m \cdot \bar{\theta} + (1 - m) \cdot \theta \quad (m \approx 0.996)$$目标编码器是上下文编码器参数的"慢速历史平均",变化极其缓慢。这给预测器提供了一个稳定可追的目标,彻底避免坍塌。初始化时,两个编码器的参数完全相同(θ̄₀ = θ₀),从同一起点出发,之后通过不同的更新规则逐渐分开。
实际使用中,Drive-JEPA 进一步用 V-JEPA 2 的公开预训练权重来初始化 θ₀,在 208 小时的驾驶视频(来自 CoVLA、DrivingDojo、OpenScene)上做领域适应微调,视频分辨率 512×256、帧率 2Hz。
和"预测未来帧"方法的对比:
预测遮挡特征(JEPA 风格)和在潜在空间预测未来帧(世界模型风格,如 LeWM)都避免了像素重建的浪费。两者各有侧重:
- JEPA 的优势在于训练稳定(任务确定性强,无多模态歧义)、特征语义质量高、计算高效。
- 潜在空间时序预测的优势在于同时建模了空间和时序演变,监督信号更丰富。“预测下一帧特征"要求模型同时理解"现在有什么"和"接下来会怎么变”,理论上学到的表示对规划更全面。
但"监督信号更强"不等于"一定学得更好"——时序预测面临未来多模态歧义问题:同一个当前帧的下一帧可能有多种完全不同的合理结果(直行、转弯、刹车),确定性预测被迫对所有可能性取平均,反而学到模糊表示。解决这个问题需要多模态目标设计——不强迫网络预测唯一未来,而是用 min-over K 或 conditional 等方式允许多种可能,只要有一个足够准确就算对。这正是当前领域的前沿方向,也是 CLEAR 在轨迹生成层面要解决的同一个问题。
3.3 ViT vs ResNet:为什么遮挡预测天然偏爱 ViT
ViT 把图像切成 patch token,遮挡某些 token 等于直接丢弃,干净利落。ResNet 没有 token 概念,遮挡要么在输入像素层面涂黑(卷积会污染边界特征),要么在特征图层面置零(感受野粒度粗糙,边界模糊),都需要额外工程改造。
更根本的差异在于感受野:ViT 的自注意力让每个 patch 第一层就能看到所有其他 patch,全局上下文即时可用,对猜测被遮区域极为重要。ResNet 的卷积是局部的,全局信息要经过很多层才能传播。未来帧预测的时序建模同样更适合 ViT 的显式位置编码。
ResNet 唯一的优势在于:高分辨率下计算量是线性增长(而非 ViT 的二次方),且内置平移不变性的归纳偏置让它在小数据上表现更好。但对于驾驶视频预训练这个场景,ViT 是更自然的选择。
四、潜在空间中的单步条件漂移
这是整篇论文技术上最核心的部分。
4.1 潜在空间是什么
把一条驾驶轨迹(比如未来 8 帧的位置序列)想象成一个高维向量。一个 VAE(变分自编码器)把这个向量"压缩"成潜在空间里的一个坐标点。语义相近的轨迹(“缓缓左转"和"慢慢左转”)在潜在空间里挨得近,风格迥异的(“急刹车"和"全速冲”)则相距甚远。
VAE 还带有一个辅助动作分类头,让潜在空间围绕有行为意义的驾驶基元(左转、直行、右转、减速…)有序组织,而不是杂乱无章。
4.2 为什么要"漂移",不直接回归
扩散模型从随机噪声出发,经过数十步迭代去噪才能到达合理轨迹,太慢。CLEAR 的单步漂移做的是:直接把候选点推向目标区域,只走一步。就像已经知道大概方向,大步走过去,而不是在黑暗里一点点摸索。
4.3 目标点的构成:α 是核心旋钮
训练时每个候选轨迹 $i$ 有自己的漂移目标:
$$\mathbf{A}_i = (1-\alpha)\cdot\mathbf{V}_{\text{pos}(i)} + \alpha\cdot\mathbf{V}_{\text{GT}}$$- 可行目标点 $\mathbf{V}_{\text{pos}(i)}$(绿色吸引子):多个合理的参考路径,代表"这个场景里各种可行的开法"。来源通常是数据集中几何可行的邻近轨迹,或用运动学规则批量生成后过滤的候选路径。
- 专家真值 $\mathbf{V}_{\text{GT}}$(紫色星星):人类专家驾驶的标准轨迹。
- α:混合系数,由 LLM 驱动的调度器动态决定。
当 α → 0:每个候选被各自的可行目标拉向不同方向,多样性最大,适合复杂路口。 当 α → 1:所有候选向专家真值收拢,精度最高,适合高速直行。
关键设计:专家真值只在训练时存在。 推理时,解码器已经通过训练把"怎么漂"这个能力烙进了权重里,直接根据视觉特征和 α 一步输出 N 条候选,不再需要 GT 参与计算。α 在推理时的作用变成:通过 adaLN 注入解码器,调节生成分布的形状(散或聚)。
4.4 可行目标点和候选轨迹的对应关系
N 个候选轨迹和 M 个可行目标点之间是一一对应、动态软分配的。每个候选轨迹 $i$ 被分配给一个吸引子 $\text{pos}(i)$,但分配不是死绑定的——训练中每个样本都动态地用匹配算法(匈牙利匹配或最近邻)重新分配,目标是让所有候选的整体覆盖度最大。这种软分配防止了"候选 1 永远学左转"导致的模式退化。
当 N < M 时,N 个候选从更大的池子里各挑一个吸引子,没被挑到的吸引子本次不参与。 当 N > M 时,多个候选争抢同一吸引子,但排斥力会把它们推开,在同一区域附近形成细粒度多样性。
匹配和 loss 的计算都发生在潜在空间里,不是在轨迹坐标空间里。
4.5 排斥机制:防止所有候选堆在一起
只有吸引力不够——如果多个候选被分配到同一吸引子,它们会完全重叠。排斥 loss 直接惩罚潜在空间里太近的候选对:
$$\mathcal{L}_{\text{repel}} = \sum_{i \neq j} \max(0,\ \text{margin} - \|\mathbf{z}_i - \mathbf{z}_j\|)$$完整训练 loss:
$$\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{drift}} + \lambda \cdot \mathcal{L}_{\text{repel}}$$吸引力 + 排斥力的对立统一,让 N 条候选自动"占领"潜在空间的不同区域,既不重复,又不飞出合理范围。
4.6 PCA 投影:给轨迹加"合法性滤网"
MLP-Mixer 在潜在空间工作,最终需要把潜在向量翻译成物理坐标(每帧的 x、y 位置)。最朴素的做法是用 MLP 直接映射,但这样可能生成物理上不可能的轨迹(两帧之间位移 50 米、曲率违反车辆转弯半径)。
PCA 投影的做法:在训练前离线对大量专家轨迹做主成分分析,找到这些轨迹变化最集中的 k 个方向(主成分):
$$\mathbf{P} = [\mathbf{p}_1, \mathbf{p}_2, \dots, \mathbf{p}_k] \in \mathbb{R}^{D \times k}$$解码器不直接输出轨迹坐标,而是输出 k 维系数向量 $\mathbf{c}$,然后重建:
$$\text{轨迹} = \bar{\mathbf{x}} + \mathbf{P} \cdot \mathbf{c}$$其中 $\bar{\mathbf{x}}$ 是专家轨迹均值。结果天然是"专家轨迹的线性组合",永远在合法轨迹的流形上。k 通常取覆盖 95%~99% 方差的最小值,对于驾驶轨迹往往只需 10~20 维——这说明驾驶轨迹的内在维度其实很低,车的运动规律有很强的结构性。
PCA 基底 P 和均值 $\bar{\mathbf{x}}$ 在推理时是固定的常数矩阵,计算量极小(一次矩阵乘法),不增加延迟。
五、CLEAR 解码器:MLP-Mixer 详解
5.1 MLP-Mixer 的来历
MLP-Mixer 由 Google Brain 的 Ilya Tolstikhin 等 12 位作者提出,发表于 NeurIPS 2021(arXiv:2105.01601)。其核心观点颇具挑衅性:CNN 的卷积和 Transformer 的自注意力对于视觉任务都是"足够的",但都不是"必要的"——只用 MLP 也能在图像分类上取得有竞争力的结果。有趣的是,作者之一 Alexey Dosovitskiy 正是 ViT 的第一作者,提出"注意力统治视觉"的人,转头参与证明了"其实不用注意力也行"。
5.2 核心思想:两个方向的信息流动
MLP-Mixer 的输入是一个二维矩阵 $X \in \mathbb{R}^{N \times C}$,在 CLEAR 里:
- $N$:候选轨迹数量(比如 5 条)
- $C$:每条候选的特征维度
把它想象成一张表格:每行是一条候选轨迹,每列是一个特征维度。Transformer 用自注意力让所有 token 互相通信,计算量是 $O(N^2)$。MLP-Mixer 把这件事拆成两个更便宜的操作:
纵向通信(跨行):Token-mixing MLP → 候选之间互相感知
横向通信(跨列):Channel-mixing MLP → 每个候选内部整合特征
两个方向交替做,计算量只有 $O(N \cdot C)$。对于 N 很小(4~8 条候选)的场景,自注意力的 $O(N^2)$ 优势体现不出来,MLP-Mixer 更轻量,完全匹配 99 FPS 的目标。
5.3 Token-mixing:候选之间的"串联"
X [N×C]
↓ 转置 → X^T [C×N]
↓ 对每行独立做 MLP_token(共享权重)
↓ 转置回来
[N×C]
↓ + 残差 X
先转置,让"同一特征维度下所有候选的值"排成一行,然后对每行做共享 MLP。操作完再转置回来,加残差。这一步让每个候选能"看见"其他候选的存在,是排斥机制在网络结构层面的体现——网络在这里学会了"我的邻居在哪,我该往哪偏"。
5.4 Channel-mixing:每个候选自己的"并联"
对每一行(每个候选)独立做 MLP,让该候选自己的 C 个特征维度整合信息,没有跨 token 交互。中间维度通常是 4C,类似 Transformer FFN 的扩展层。
5.5 adaLN:α 如何渗透进每一层
普通 Layer Norm 的缩放参数 γ 和偏移参数 β 是固定的可学习值。adaLN(自适应层归一化)让它们动态生成:
$$\gamma, \beta = \text{MLP}_{\text{ada}}(\alpha)$$$$\text{adaLN}(x, \alpha) = \gamma \cdot \frac{x - \mu}{\sigma} + \beta$$
α 在 Mixer 的每一层都注入一次,整个网络的行为随 α 平滑变化——α=0.1 时输出多样,α=0.9 时输出聚拢。这个设计借鉴自 DiT(扩散 Transformer)。
一层 Mixer 的完整数学:
$$Y = X + \text{MLP}_{\text{token}}\!\left(\text{adaLN}(X, \alpha)^T\right)^T$$$$Z = Y + \text{MLP}_{\text{channel}}\!\left(\text{adaLN}(Y, \alpha)\right)$$
5.6 视觉特征如何注入
Drive-JEPA 输出密集的 token 序列(如 196 个 patch token),不能直接喂给 MLP-Mixer(太长,格式不匹配)。压缩方式是交叉注意力:
可学习的场景查询 Q(比如 16 个固定向量,训练时学习)
↓ 交叉注意力 ↑
视觉特征 token 序列(Key / Value)
↓
16 个场景摘要向量(拼接/池化成一个向量 s)
场景查询是可学习的,网络会自动学会"哪些视觉信息对轨迹生成有用"——前方障碍物位置、道路边界、他车朝向。
视觉特征注入 MLP-Mixer 的完整方式是两步叠加:
第一步(进 Mixer 之前):场景摘要与 N 个可学习候选查询向量拼接,线性投影,给每个候选"预热":
初始输入 = Linear([q_i; s]),对每个候选 i
第二步(Mixer 每层内):条件向量 c = MLP([s; α]) 通过 adaLN 持续注入每一层,场景信息贯穿始终不被稀释。
5.7 N 个模态是怎么来的
MLP-Mixer 的输入不是"N 条已有的轨迹",而是 N 个可学习的查询向量(网络参数,随机初始化),代表 N 个候选轨迹的占位符。训练结束后,这些向量在参数空间里自然分化出不同的"专业分工"——某个向量负责左转模态,某个负责直行,以此类推。
多样性由三重机制共同保证:token-mixing 让候选互相感知,排斥 loss 直接惩罚相似,漂移 loss 的软分配把不同候选拉向不同目标。
5.8 完整解码流程
输入:视觉特征图 + 自车历史位姿 + 导航指令 + α
↓
交叉注意力压缩 → 场景摘要向量 s
↓
Linear([q_i; s]) → N 个初始候选向量
↓
MLP-Mixer 主干(L 层,每层 adaLN 注入 [s; α])
[Token-mixing] ← 候选间排斥感知
[Channel-mixing] ← 每个候选内部整合
↓
N 个输出向量 → MLP → N 个 k 维 PCA 系数
↓
轨迹_i = x̄ + P × c_i → N 条物理轨迹
六、LLM 的两个角色
6.1 Qwen 3.5 0.8B:不说话,只思考
LLM 的价值不在于输出文字,而在于隐藏状态——最后几层的激活值已经编码了场景语义、交通规则和风险先验,可以直接作为特征向量使用,完全不需要解码成自然语言。一次前向传播,隐藏状态复用于两个下游任务。
6.2 角色一:自适应调度器(决定 α 和 N)
训练时预先定义好若干离散方案,比如:
| 方案 | α | N | 适合场景 |
|---|---|---|---|
| 1 | 0.1 | 8 | 复杂路口,需多样性 |
| 2 | 0.3 | 6 | 一般城区 |
| 3 | 0.5 | 4 | 均衡 |
| 4 | 0.7 | 4 | 较简单 |
| 5 | 0.9 | 2 | 高速直行,要精准 |
调度器是一个轻量级 Transformer 解码器,把 LLM 隐藏状态映射为方案上的 softmax 分布,推理时 argmax 选方案。
训练调度器的监督标签怎么构造? 对每个场景跑遍所有预定义方案,每个方案生成 N 条候选,用 NAVSIM 的仿真器对每条候选算 PDMS 分,取该方案下最好的那条成绩(max over N)作为该方案的得分。PDMS 最高的方案成为这个场景的监督标签。
6.3 角色二:交叉注意力评分器(从 N 条候选里选最优)
候选轨迹特征 → 作为 Query
LLM 隐藏状态 → 作为 Key / Value(语义记忆)
↓ 交叉注意力
每条候选输出标量分数 S_i
↓ argmax → 执行最高分轨迹
评分器用两个 loss 联合训练:
- MSE loss:
||S_i - PDMS_i||²,让预测分数贴近真实 PDMS。 - 排序 loss:若 PDMS_i > PDMS_j,则惩罚 S_j ≥ S_i,保证相对顺序正确。
两者互补:排序 loss 保证"谁更好"判断正确,MSE loss 保证绝对数值准确。
6.4 对 LLM 角色设计的质疑与反思
这里有几个值得深思的设计问题:
质疑一:评分器也需要几何理解,LLM 够用吗? 判断"这条轨迹会不会在 3 米后擦到行人"是几何计算问题,LLM 隐藏状态只提供"这个场景有行人,需要谨慎"这类语义先验,缺乏行人在自车坐标系下的精确位置。这也解释了为什么 CLEAR 在 TTC(碰撞时间)和几何相关指标上提升显著,但在 LK(车道保持)和 TL(交通灯合规)上仍有短板。更合理的评分器应该同时融合 LLM 语义特征和视觉几何特征。
质疑二:LLM 隐藏状态可以压缩后作为生成条件 将 LLM 隐藏状态(1024 维)用 MLP 压缩到 128 维再注入解码器,计算量和视觉特征注入完全对称,没有算力障碍。论文选择"LLM 不参与生成、只参与调度和评分",真正的原因是信息类型差异:LLM 隐藏状态是全局语义混合,缺乏空间对应关系和几何精度,而视觉特征对空间结构的编码更精确。但这并不意味着两者不能联合——将两者都注入解码器是一个合理的改进方向。
质疑三:可以直接用 LLM 隐藏状态 MLP 回归 PCA 系数
LLM 隐藏状态 → MLP → k 维 PCA 系数 → 轨迹,完全绕过 MLP-Mixer,既不自回归也不慢。论文没有做这个消融。理论上可行,但多模态多样性的保证需要额外设计(N 个独立 MLP 头 + 排斥 loss),且几何精度受限于 LLM 特征本身。
这三个质疑共同指向同一个改进方向:让 LLM 语义特征和视觉几何特征在解码器和评分器里都充分融合,而不是严格划分边界。
七、实验结果
7.1 训练流程
训练分三个解耦阶段,确保稳定性:
- 预训练 VAE + CLEAR 解码器(约 13 万条轨迹,500 epoch)
- 微调 Qwen 3.5 0.8B(1.7 万场景,15 万组驾驶问答对,20 epoch)
- 训练调度器 + 评分器(1 万场景,每场景生成大量方案对比数据,100 epoch)
上游 VAE 和 LLM 的参数在第三阶段全部冻结。
7.2 NAVSIM v1 结果(PDMS,越高越好)
| 方法 | TTC | PDMS |
|---|---|---|
| ReCogDrive | 94.9 | 90.8 |
| iPad | 94.9 | 91.7 |
| DriveSuprim | 95.5 | 93.5 |
| Drive-JEPA | 95.9 | 93.3 |
| CLEAR(本文) | 97.2 | 93.7 |
CLEAR 在安全关键指标 TTC 上提升最显著(95.9 → 97.2),说明 LLM 驱动的调度器和评分器有效提升了安全感知规划能力。
7.3 NAVSIM v2 结果(EPDMS,更严苛)
在 ViT/L 规模方法中,CLEAR 取得最高 EPDMS(88.6),在 NC、DAC、EP、TTC、EC 上均领先。但在 LK(车道保持)和 TL(交通灯合规)上仍落后,印证了评分器缺乏几何特征的短板。
7.4 消融实验
将 LLM 评分器替换为仅视觉特征评分,或将自适应调度改为固定 α=0.5、N=64,性能均出现明显下滑。每个组件都不可或缺。
八、局限性与未来方向
当前短板:
- 车道保持(LK)和交通灯合规(TLC)指标仍有差距,纯前视图像 + 高层导航指令在需要精确感知车道线和信号灯的场景下力有不逮。
- 评分器只用 LLM 语义特征,缺乏几何感知能力。
自然的改进方向:
- 引入高清地图、多摄像头融合等更丰富的感知输入。
- 在解码器和评分器里同时融合 LLM 语义特征和视觉几何特征,打破当前"LLM 管语义、视觉管生成"的硬划分。
- 在视频预训练阶段引入更显式的时序建模(如潜在空间时序预测 + 多模态目标),弥补 JEPA 风格预训练的时序短板。
九、一句话总结
CLEAR 证明了一件事:高保真的多模态规划不需要密集几何标注,不需要迭代采样,也不需要巨无霸 LLM。一个 0.8B 的小模型,配上精心设计的"隐藏状态复用"策略,就足以驱动一个跑到 99 FPS 的安全驾驶系统,还能拿下 NAVSIM 榜首。
论文最令人击节称赏之处,在于它没有去发明更大的模型,而是极其精巧地重新分工——让 LLM 不说话只思考,把思考的成果转化为生成器的指挥棒,在速度、安全性和多样性之间找到了一个漂亮的平衡点。