论文:EMMA: End-to-End Multimodal Model for Autonomous Driving 机构:Waymo 时间:2024年10月 基座模型:Google Gemini
一、核心思想:把大模型塞进方向盘
想象一下,如果把一个上知天文下知地理的 AI 大模型(比如 ChatGPT 或 Gemini)直接塞进汽车的方向盘里,让它代替所有复杂的传感器处理和控制模块,它能学会开车吗?
Waymo 给出了响亮的回答:能!而且开得非常聪明!
这篇论文在自动驾驶圈相当于投下了一颗"深水炸弹",标志着自动驾驶向大一统多模态模型迈出了里程碑式的一步。
二、架构革新:掀翻"流水线",请来"老司机"
传统方案的困境
传统自动驾驶系统就像一个流水线工厂:
- 感知部门(Perception):专门负责"看"
- 预测部门(Prediction):专门负责"猜"
- 规划部门(Planning):专门负责"打方向盘"
这种分工明确的模式虽然好调试,但存在致命问题——误差传递(Error Propagation):感知部门如果漏看了一个行人,后面的部门就全跟着完蛋。
EMMA 的颠覆性设计
EMMA 直接把桌子掀了!
它基于 Google 的 Gemini 多模态大语言模型,打造了一个纯粹的**端到端(End-to-End)**架构:
- 摄像头拍到的原始画面一进去
- 模型大脑一转
- 直接输出汽车下一步该怎么走(轨迹坐标)
没有中间商赚差价,减少了信息损耗!
三、核心必杀技:万物皆文本(Text-to-Float)
大语言模型是靠处理文字起家的,那它怎么理解物理世界里的距离、速度和三维坐标?
答案:把开车变成做阅读理解和视觉问答(VQA)!
输入端
| 类型 | 内容 | 形式 |
|---|---|---|
| 视觉 | 多视角原始摄像头视频流 | 图像 |
| 文本 | 导航指令(“前方右转”) | 自然语言 |
| 文本 | 自车历史轨迹点坐标 (x, y) |
文本形式 |
⚠️ 关键点:EMMA 没有接入 LiDAR 激光雷达或毫米波雷达,是纯视觉主导的方案!
输出端
模型不会输出晦涩的底层控制代码,而是直接用文本输出:
- 未来的轨迹坐标点
(x, y) - 3D 感知物体
- 道路图(Road Graph)元素
为什么用 Text-to-Float?
作者尝试过为物理坐标发明专门的"控制 Token",但最终发现:
直接让模型"说"出带小数点的文本效果更好!
比如:预测轨迹:(5.2, 3.1) and (6.0, 3.5)
这样做的核心优势:
- 所有驾驶任务都在同一个统一的语言空间里运行
- 最大化"白嫖" Gemini 预训练模型里如星辰大海般的世界知识(World Knowledge)
四、老司机的"内心戏":思维链推理(Chain-of-Thought, CoT)
如果 AI 只会机械地输出坐标,那就是个危险的"黑盒"。为了让 EMMA 更靠谱、更有可解释性,Waymo 给它加入了 CoT(思维链) 提示技术。
在决定怎么打方向盘之前,EMMA 会在脑子里进行严密的四步"碎碎念":
| 步骤 | 名称 | 内容示例 |
|---|---|---|
| R1 | Scene Description(场景描述) | 环顾四周,弄清大环境:“现在是个拥堵的十字路口” |
| R2 | Critical Objects(关键物体) | 精准定位会对自车产生影响的物体:“注意!右前方有个行人,他的 3D 坐标是 (X,Y,Z)” |
| R3 | Behavior Description(行为描述) | 预测意图:“这个行人正准备横穿马路” |
| R4 | Meta Driving Decision(宏观决策) | 下达高层级指令:“我得减速让行” |
完成这套内心戏后,它才会输出最终的轨迹坐标。
实验证明:加上这种逻辑推理后,运动规划质量大幅度提升!
五、“十项全能王”:多任务联合训练
既然 EMMA 把任务都变成了统一的"视觉问答",那它绝不满足于只当一个司机。
通过输入不同的 Prompt(提示词),它可以同时干好几份工作!
反直觉的发现
研究人员发现了一个极其反直觉的惊喜:
联合训练(Co-training)不仅没有让模型"学杂了",反而产生了强大的化学反应!
当把以下三个任务绑在一起让 EMMA 学习时:
- 端到端运动规划
- 3D 目标检测
- 道路图估计
各方面的表现都迎来了飞跃!例如,多任务联合训练下,目标检测性能甚至提升了 5.5%!
跑分战绩
🏆 成绩单相当惊人:
| 数据集 | 任务 | 表现 |
|---|---|---|
| nuScenes | 运动规划 | SOTA(当前世界第一) |
| WOMD | 运动规划 | 超越此前顶尖方法 |
| WOD | 3D 目标检测 | 精确度和召回率领先 |
六、阿喀琉斯之踵:现存的局限
论文最后,作者非常坦诚地暴露了 EMMA 目前面临的几个硬伤:
1. 算力和显存刺客
背后是一个庞大的大语言模型,推理成本极高,延迟较大。
优化手段:
- SARA-RT 技术
- 移除显式推理链
优化效果:
- 勉强把速度提到了 3 FPS
- 相比 UniAD 的 1.8 FPS 快了 67%
但在自动驾驶这种人命关天的毫秒级战场,这个速度还需要进一步优化。
2. 短期记忆
为了控制计算量,目前只能吃进去极少量的历史图像帧,无法理解过长的时间序列。
3. 缺少物理 3D 传感器
作为纯视觉模型,没有接入 LiDAR 或雷达,在面对极端恶劣天气或极其需要高精度深度信息的场景时,是个天然短板。
七、总结
《EMMA》这篇论文证明了一个令人兴奋的事实:
只要大模型的"底子"足够好,哪怕不用复杂的专用模块、不用复杂的特殊 Token、不带昂贵的激光雷达,仅仅靠着"看图像"和"讲大白话",AI 也能成为一个极其优秀的"赛博老司机"!
这是自动驾驶向大一统多模态模型迈出的里程碑式一步,为未来的发展指明了一个极具潜力的方向。
相关链接
- 论文链接:https://arxiv.org/pdf/2410.23262
- 关联笔记:[[DiffusionDriveV2 论文阅读笔记]]
#自动驾驶 #E2E #多模态大模型 #Waymo #论文笔记