EMMA: End-to-End Multimodal Model for Autonomous Driving

论文:EMMA: End-to-End Multimodal Model for Autonomous Driving 机构:Waymo 时间:2024年10月 基座模型:Google Gemini


一、核心思想:把大模型塞进方向盘

想象一下,如果把一个上知天文下知地理的 AI 大模型(比如 ChatGPT 或 Gemini)直接塞进汽车的方向盘里,让它代替所有复杂的传感器处理和控制模块,它能学会开车吗?

Waymo 给出了响亮的回答:能!而且开得非常聪明!

这篇论文在自动驾驶圈相当于投下了一颗"深水炸弹",标志着自动驾驶向大一统多模态模型迈出了里程碑式的一步。


二、架构革新:掀翻"流水线",请来"老司机"

传统方案的困境

传统自动驾驶系统就像一个流水线工厂

  • 感知部门(Perception):专门负责"看"
  • 预测部门(Prediction):专门负责"猜"
  • 规划部门(Planning):专门负责"打方向盘"

这种分工明确的模式虽然好调试,但存在致命问题——误差传递(Error Propagation):感知部门如果漏看了一个行人,后面的部门就全跟着完蛋。

EMMA 的颠覆性设计

EMMA 直接把桌子掀了!

它基于 Google 的 Gemini 多模态大语言模型,打造了一个纯粹的**端到端(End-to-End)**架构:

  • 摄像头拍到的原始画面一进去
  • 模型大脑一转
  • 直接输出汽车下一步该怎么走(轨迹坐标)

没有中间商赚差价,减少了信息损耗!


三、核心必杀技:万物皆文本(Text-to-Float)

大语言模型是靠处理文字起家的,那它怎么理解物理世界里的距离、速度和三维坐标?

答案:把开车变成做阅读理解和视觉问答(VQA)!

输入端

类型 内容 形式
视觉 多视角原始摄像头视频流 图像
文本 导航指令(“前方右转”) 自然语言
文本 自车历史轨迹点坐标 (x, y) 文本形式

⚠️ 关键点:EMMA 没有接入 LiDAR 激光雷达或毫米波雷达,是纯视觉主导的方案!

输出端

模型不会输出晦涩的底层控制代码,而是直接用文本输出

  • 未来的轨迹坐标点 (x, y)
  • 3D 感知物体
  • 道路图(Road Graph)元素

为什么用 Text-to-Float?

作者尝试过为物理坐标发明专门的"控制 Token",但最终发现:

直接让模型"说"出带小数点的文本效果更好!

比如:预测轨迹:(5.2, 3.1) and (6.0, 3.5)

这样做的核心优势:

  • 所有驾驶任务都在同一个统一的语言空间里运行
  • 最大化"白嫖" Gemini 预训练模型里如星辰大海般的世界知识(World Knowledge)

四、老司机的"内心戏":思维链推理(Chain-of-Thought, CoT)

如果 AI 只会机械地输出坐标,那就是个危险的"黑盒"。为了让 EMMA 更靠谱、更有可解释性,Waymo 给它加入了 CoT(思维链) 提示技术。

在决定怎么打方向盘之前,EMMA 会在脑子里进行严密的四步"碎碎念"

步骤 名称 内容示例
R1 Scene Description(场景描述) 环顾四周,弄清大环境:“现在是个拥堵的十字路口”
R2 Critical Objects(关键物体) 精准定位会对自车产生影响的物体:“注意!右前方有个行人,他的 3D 坐标是 (X,Y,Z)”
R3 Behavior Description(行为描述) 预测意图:“这个行人正准备横穿马路”
R4 Meta Driving Decision(宏观决策) 下达高层级指令:“我得减速让行”

完成这套内心戏后,它才会输出最终的轨迹坐标。

实验证明:加上这种逻辑推理后,运动规划质量大幅度提升!


五、“十项全能王”:多任务联合训练

既然 EMMA 把任务都变成了统一的"视觉问答",那它绝不满足于只当一个司机。

通过输入不同的 Prompt(提示词),它可以同时干好几份工作!

反直觉的发现

研究人员发现了一个极其反直觉的惊喜:

联合训练(Co-training)不仅没有让模型"学杂了",反而产生了强大的化学反应!

当把以下三个任务绑在一起让 EMMA 学习时:

  1. 端到端运动规划
  2. 3D 目标检测
  3. 道路图估计

各方面的表现都迎来了飞跃!例如,多任务联合训练下,目标检测性能甚至提升了 5.5%

跑分战绩

🏆 成绩单相当惊人

数据集 任务 表现
nuScenes 运动规划 SOTA(当前世界第一)
WOMD 运动规划 超越此前顶尖方法
WOD 3D 目标检测 精确度和召回率领先

六、阿喀琉斯之踵:现存的局限

论文最后,作者非常坦诚地暴露了 EMMA 目前面临的几个硬伤:

1. 算力和显存刺客

背后是一个庞大的大语言模型,推理成本极高,延迟较大。

优化手段:

  • SARA-RT 技术
  • 移除显式推理链

优化效果:

  • 勉强把速度提到了 3 FPS
  • 相比 UniAD 的 1.8 FPS 快了 67%

但在自动驾驶这种人命关天的毫秒级战场,这个速度还需要进一步优化。

2. 短期记忆

为了控制计算量,目前只能吃进去极少量的历史图像帧,无法理解过长的时间序列。

3. 缺少物理 3D 传感器

作为纯视觉模型,没有接入 LiDAR 或雷达,在面对极端恶劣天气或极其需要高精度深度信息的场景时,是个天然短板。


七、总结

《EMMA》这篇论文证明了一个令人兴奋的事实:

只要大模型的"底子"足够好,哪怕不用复杂的专用模块、不用复杂的特殊 Token、不带昂贵的激光雷达,仅仅靠着"看图像"和"讲大白话",AI 也能成为一个极其优秀的"赛博老司机"!

这是自动驾驶向大一统多模态模型迈出的里程碑式一步,为未来的发展指明了一个极具潜力的方向。


相关链接

  • 论文链接:https://arxiv.org/pdf/2410.23262
  • 关联笔记:[[DiffusionDriveV2 论文阅读笔记]]

#自动驾驶 #E2E #多模态大模型 #Waymo #论文笔记