202505 论文研读-DriveGPT4:Interpretable End-to-End Autonomous Driving Via Large Language Model

作者:Zhenhua XuYujia Zhang
单位:香港大学、浙江大学
来源: IEEE Robotics and Automation Letters
时间:2024.08.07

一、研究背景

近年来,自动驾驶系统主要分为模块化流水线(感知→规划→控制)和端到端学习两类。前者可解释性较好但难以整体优化,后者虽然省去中间步骤却往往是黑盒决策,带来安全、法律和信任方面的挑战。为了解决端到端方法的可解释性问题,一些工作使用小型语言模型生成有限的文字说明,但因模型容量受限,其答复僵化且只能处理预设问题。与此同时,多模态大语言模型(如 ChatGPT、LLaMA)在视觉理解与推理方面展现出强大能力,为将可解释性引入端到端自动驾驶提供了新契机。

二、核心内容

1.任务定义

  • 输入:前视单目视频序列 + 用户自然语言查询(如“此刻车辆在做什么?”、“预测下帧速度和转向角”或更丰富的多轮对话)
  • 输出:文本化的动作描述行为理由,以及低级控制信号(速度 v,下一个转向角 Δ) 。

2.指令调优数据集构建

  • BDD-X QA:从 BDD-X 提供的动作描述、行为理由、控制信号标签,分别构造三类同义问句集,共 16 K 条 。
  • ChatGPT 生成 QA:利用 YOLOv8 探测帧内目标,并将检测框、真值控制、原始 BDD-X 文本作为“privileged info”送入 ChatGPT,生成 40 K 条多轮、多样化的驾驶场景对话式指令 。
  • 最终得到 56 K 条自动驾驶专属指令,再与 223 K 条通用视觉指令混合用于微调 。

三、核心框架贡献

1.多模态统一 Token 化

  • 视频 Tokenizer:用预训练 CLIP 提取每帧全局与 patch 特征,并通过轻量投影器映射到与文本 Token 同空间。
  • 统一 De-tokenizer:将控制信号也当作“文本”处理,借鉴 RT-2 的思路,将 v、Δ 序列化为 Token,由 LLaMA2 直接预测,再解码回数值 。

2.Mix-Finetune 训练策略

  • 预训练阶段:仅训练投影器,在 CC3M(593 K 图文对)和 WebVid-2M(703 K 视频文对)上对齐视觉与文本,保持 CLIP 和 LLM 参数固定。
  • 混合微调阶段:先用 223 K 通用视觉指令数据微调,再以 56 K 自动驾驶指令数据进一步精调,使模型既具备通用视觉理解能力,又能精准执行可解释驾驶任务 。

3.可解释与可控双重输出

  • DriveGPT4 不仅能在自然语言层面给出动作与理由,还能同步输出可直接执行的低级控制命令,实现“看得见、问得明、控得准”的端到端自动驾驶。

四、实验部分

解释性评估(BDD-X QA)

  • 在动作描述、行为理由三个固定格式任务上,DriveGPT4 在 CIDEr、BLEU-4、ROUGE-L 等指标上均超越 ADAPT 等 SOTA,尤其在“Hard”场景提升显著。
  • 对随机抽取的 100 条多样化问答(Additional QA)测试,DriveGPT4 可以回答各类车辆状态、周边环境提问,而其他方法多半不能 。

端到端控制信号预测

  • 在 BDD-X 全量测试集上,以 RMSE多阈值准确率 Aτ(τ∈{0.1,0.5,1.0,5.0})评估,DriveGPT4 在速度和转向角预测上均优于 ADAPT 等基线 。

零样本泛化能力

  • 将模型直接应用于 nuScenes 数据集和电子游戏画面,DriveGPT4 在问答和控制预测上均给出合理结果,展示出跨域适应性 。

消融研究

  • 去除 BDD-X QA、ChatGPT QA、或通用视觉指令中的任意一部分,均会导致各项任务性能明显下降,验证了各类指令数据与混合微调策略的必要性 。

五、总结

DriveGPT4 是首个将多模态大语言模型完整应用于可解释端到端自动驾驶的系统,通过视觉–文本–控制统一 Token 化和大规模混合指令微调,实现了同时生成自然语言解释与低级控制命令,并在多项基准任务上刷新了 SOTA。未来工作将面向闭环控制在线数据收集设计,进一步解决模仿学习漂移问题并提升系统的安全性和可靠性。