EMMA: End-to-End Multimodal Model for Autonomous Driving

论文：EMMA: End-to-End Multimodal Model for Autonomous Driving 机构：Waymo 时间：2024年10月基座模型：Google Gemini

一、核心思想：把大模型塞进方向盘

想象一下，如果把一个上知天文下知地理的 AI 大模型（比如 ChatGPT 或 Gemini）直接塞进汽车的方向盘里，让它代替所有复杂的传感器处理和控制模块，它能学会开车吗？

Waymo 给出了响亮的回答：能！而且开得非常聪明！

这篇论文在自动驾驶圈相当于投下了一颗"深水炸弹"，标志着自动驾驶向大一统多模态模型迈出了里程碑式的一步。

二、架构革新：掀翻"流水线"，请来"老司机"

传统方案的困境

传统自动驾驶系统就像一个流水线工厂：

感知部门（Perception）：专门负责"看"
预测部门（Prediction）：专门负责"猜"
规划部门（Planning）：专门负责"打方向盘"

这种分工明确的模式虽然好调试，但存在致命问题——误差传递（Error Propagation）：感知部门如果漏看了一个行人，后面的部门就全跟着完蛋。

EMMA 的颠覆性设计

EMMA 直接把桌子掀了！

它基于 Google 的 Gemini 多模态大语言模型，打造了一个纯粹的**端到端（End-to-End）**架构：

摄像头拍到的原始画面一进去
模型大脑一转
直接输出汽车下一步该怎么走（轨迹坐标）

没有中间商赚差价，减少了信息损耗！

三、核心必杀技：万物皆文本（Text-to-Float）

大语言模型是靠处理文字起家的，那它怎么理解物理世界里的距离、速度和三维坐标？

答案：把开车变成做阅读理解和视觉问答（VQA）！

输入端

类型	内容	形式
视觉	多视角原始摄像头视频流	图像
文本	导航指令（“前方右转”）	自然语言
文本	自车历史轨迹点坐标 `(x, y)`	文本形式

⚠️ 关键点：EMMA 没有接入 LiDAR 激光雷达或毫米波雷达，是纯视觉主导的方案！

输出端

模型不会输出晦涩的底层控制代码，而是直接用文本输出：

未来的轨迹坐标点 (x, y)
3D 感知物体
道路图（Road Graph）元素

为什么用 Text-to-Float？

作者尝试过为物理坐标发明专门的"控制 Token"，但最终发现：

直接让模型"说"出带小数点的文本效果更好！

比如：预测轨迹：(5.2, 3.1) and (6.0, 3.5)

这样做的核心优势：

所有驾驶任务都在同一个统一的语言空间里运行
最大化"白嫖" Gemini 预训练模型里如星辰大海般的世界知识（World Knowledge）

四、老司机的"内心戏"：思维链推理（Chain-of-Thought, CoT）

如果 AI 只会机械地输出坐标，那就是个危险的"黑盒"。为了让 EMMA 更靠谱、更有可解释性，Waymo 给它加入了 CoT（思维链） 提示技术。

在决定怎么打方向盘之前，EMMA 会在脑子里进行严密的四步"碎碎念"：

步骤	名称	内容示例
R1	Scene Description（场景描述）	环顾四周，弄清大环境：“现在是个拥堵的十字路口”
R2	Critical Objects（关键物体）	精准定位会对自车产生影响的物体：“注意！右前方有个行人，他的 3D 坐标是 (X,Y,Z)”
R3	Behavior Description（行为描述）	预测意图：“这个行人正准备横穿马路”
R4	Meta Driving Decision（宏观决策）	下达高层级指令：“我得减速让行”

完成这套内心戏后，它才会输出最终的轨迹坐标。

实验证明：加上这种逻辑推理后，运动规划质量大幅度提升！

五、“十项全能王”：多任务联合训练

既然 EMMA 把任务都变成了统一的"视觉问答"，那它绝不满足于只当一个司机。

通过输入不同的 Prompt（提示词），它可以同时干好几份工作！

反直觉的发现

研究人员发现了一个极其反直觉的惊喜：

联合训练（Co-training）不仅没有让模型"学杂了"，反而产生了强大的化学反应！

当把以下三个任务绑在一起让 EMMA 学习时：

端到端运动规划
3D 目标检测
道路图估计

各方面的表现都迎来了飞跃！例如，多任务联合训练下，目标检测性能甚至提升了 5.5%！

跑分战绩

🏆 成绩单相当惊人：

数据集	任务	表现
nuScenes	运动规划	SOTA（当前世界第一）
WOMD	运动规划	超越此前顶尖方法
WOD	3D 目标检测	精确度和召回率领先

六、阿喀琉斯之踵：现存的局限

论文最后，作者非常坦诚地暴露了 EMMA 目前面临的几个硬伤：

1. 算力和显存刺客

背后是一个庞大的大语言模型，推理成本极高，延迟较大。

优化手段：

SARA-RT 技术
移除显式推理链

优化效果：

勉强把速度提到了 3 FPS
相比 UniAD 的 1.8 FPS 快了 67%

但在自动驾驶这种人命关天的毫秒级战场，这个速度还需要进一步优化。

2. 短期记忆

为了控制计算量，目前只能吃进去极少量的历史图像帧，无法理解过长的时间序列。

3. 缺少物理 3D 传感器

作为纯视觉模型，没有接入 LiDAR 或雷达，在面对极端恶劣天气或极其需要高精度深度信息的场景时，是个天然短板。

七、总结

《EMMA》这篇论文证明了一个令人兴奋的事实：

只要大模型的"底子"足够好，哪怕不用复杂的专用模块、不用复杂的特殊 Token、不带昂贵的激光雷达，仅仅靠着"看图像"和"讲大白话"，AI 也能成为一个极其优秀的"赛博老司机"！

这是自动驾驶向大一统多模态模型迈出的里程碑式一步，为未来的发展指明了一个极具潜力的方向。