盘点｜近半年「端到端自动驾驶」推荐度最高的10篇论文！

自UniAD（CVPR 2023 Best Paper）横空出世以来，端到端（E2E）自动驾驶已成为学术界与工业界共同追逐的热点。近两年间，创新成果不断涌现，各大顶会（CVPR/ICRA/NeurIPS）的自动驾驶端到端方向论文数量呈现指数级增长。

随着2025年将要过半，业界也涌现出了不少佳作。

那么，哪些是最「值得推荐」的高质量论文，值得我们反复研读？

为此，我们采访调研了数十位优秀的自动驾驶领域一线研究者，整理出了他们心目中认为的，「近半年左右，最推荐学习的10篇端到端自动驾驶领域论文」。

当然，我们深知：任何“推荐榜单”在技术洪流前，都只是沧海一粟。

本文所涉及的工作也绝不是唯一的答案，而只是探索的起点。

（这里仅为我们本次调研中推荐里出现频次最高的几篇，欢迎各位同仁在评论区补充你的推荐/自荐！）

欢迎关注【深蓝AI】👇

—

近半年端到端自动驾驶领域

推荐阅读的10篇论文

（民榜，排名不分先后）

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

机构：华中科技大学、地平线
推荐理由：首个基于3DGS的RL框架，用于训练端到端AD策略；也是一种基于强化学习的端到端方案。
论文内容：

作者建立了一个基于3DGS的闭环强化学习（RL）训练范式。通过利用3DGS技术，可以构建真实物理世界的真实仿真结果，使AD策略能够广泛探索状态空间，并通过大规模试错学习处理分布外场景。

作者引入了一个由多样且以前未见过的3DGS环境组成的闭环评估基准。与基于IL的方法相比，RAD在大多数闭环指标中表现更强，尤其是碰撞率降低了3倍。
项目主页：https:///pdf/2502.13144

VLM-AD: End-to-End Driving through Vision-Language Model Supervision

机构：Cruise LLC 、美国东北大学
推荐理由：利用VLM作为教师模型方法，且在推理过程中不需要VLM，适合实时部署。
论文内容：

作者提出了VLM-AD，通过基于推理的行为文本注释的高质量数据集，从VLMs中提炼出驾驶推理知识进入端到端AD管道。

设计了两种即插即用的辅助任务，通过非结构化的自由文本和结构化动作标签对现有的端到端AD管道进行监督。这些任务实现了VLM知识的有效提炼，引导模型学习更丰富的特征表示以提升规划性能，而无需VLM微调或推理时使用。

在nuScenes数据集上的广泛实验验证了本文提出方法的有效性，UniAD和VAD的碰撞率分别降低了38.7%和57.4%。
论文地址：https:///pdf/2412.14446

延展阅读：碰撞率降低57.4%！VLM-AD显著提升自动驾驶规划准确性，无需VLM实时推理

EMMA: End-to-End Multimodal Model for Autonomous Driving

机构：Waymo LLC
推荐理由：全局式端到端的代表，直接输入视频，没有骨干网，核心就是多模态大模型。
论文内容：

作者提出了一种自动驾驶中的端到端多模态模型；EMMA在端到端运动规划方面展现出强大的性能，在开源基准nuScenes上实现了最先进的性能并且在Waymo Open Motion Dataset（WOMD）上取得了具有竞争力的结果。

该工作证明了EMMA可以作为自动驾驶领域中的通用模型，为多项驾驶相关的任务联合生成输出结果。特别是，当EMMA与运动规划、目标检测和道路图任务联合训练时，它的性能与单独训练的模型相当甚至有所超越。
论文地址：https:///pdf/2410.23262

DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving

机构：上海交通大学
推荐理由：DriveTransformer为端到端自动驾驶提供了一种无需BEV的统一、并行和协同的方法，便于训练和扩展。

论文内容：

DriveTransformer具有三个关键属性：

任务并行：所有任务查询在每个模块中直接相互交互，促进跨任务知识转移，同时在没有明确层次结构的情况下保持系统稳定。

稀疏表示：任务查询直接与原始传感器特征交互，提供了一种高效直接的信息提取方式，符合端到端优化范式。

流处理：时序融合通过先进先出队列实现，该队列存储历史任务查询，并通过时序交叉注意力进行融合，确保效率和特征重用。

论文地址：https:///pdf/2503.07656
项目主页：https://github.com/Thinklab-SJTU/DriveTransformer/
论文一作直播分享完整回放：https://www./open/course/266

TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving

机构：理想、中科院计算所、清华大学
推荐理由：NAVSIM的新SOTA！自动驾驶中基于解耦多模态表示的端到端轨迹生成
论文内容：

作者提出了一种编码器-解码器生成轨迹模型TransDiffuser。它首先编码场景感知和自车的运动，然后利用编码信息作为去噪解码器的条件输入来解码多模态多样化的可行轨迹。

本文模型在NAVSIM基准上实现了最新的PDM得分94.85，而没有任何显式的引导，例如基于锚的轨迹或者预定义的词表。
论文地址：https://www./pdf/2505.09315

Distilling Multi-modal Large Language Models for Autonomous Driving

机构：上海人工智能实验室、商汤科技、斯坦福大学等
推荐理由：通过知识蒸馏将多模态大语言模型（MLLM）的知识转移到基于视觉的E2E规划器中，有助于提升模型在复杂和长尾场景下（如极端天气、罕见障碍物）的泛化能力。
论文内容：

作者通过设计多模态LLM（MLLM）与轻量化视觉规划器的联合训练策略，将LLM的世界知识（如交通规则、场景语义）蒸馏到端到端规划器中，使后者无需实时调用LLM即可继承其推理能力，推理延迟降低至传统方法的1/3。

引入时空对齐损失函数，强制规划器学习LLM对连续帧的语义理解（如“左侧车道流量减少”），并提前触发变道决策，在nuScenes数据集上实现37%的轨迹误差下降和80%的碰撞率减少。
解耦式架构设计采用双路径蒸馏，同时支持动态调整语义权重以适应复杂场景。

论文地址：https:///pdf/2501.09757

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

机构：华中科技大学、地平线
推荐理由：首次在端到端自动驾驶中引入扩散模型，有效解决了扩散模型在动态开放场景中的模式坍缩（Mode Collapse）和高计算成本问题，为构建高效、鲁棒的多模态自动驾驶规划提供了新思路。
论文内容：

作者提出了一种截断扩散策略 DiffusionDrive，该策略结合了先前的多模式锚点并截断扩散调度，使模型能够学习从锚定高斯分布到多模式驾驶动作分布的去噪过程。此外，设计一个高效的级联扩散解码器，增强与条件场景上下文的交互。

与普通扩散策略相比，该模型 DiffusionDrive 将去噪步减少 10 倍，仅需 2 步即可提供卓越的多样性和质量。在面向规划的 NAVSIM 数据集上，借助对齐的 ResNet- 34 主干，DiffusionDrive 无需花哨考虑即可实现 88.1 PDMS，同时在 NVIDIA 4090 上以 45 FPS 的实时速度运行。
论文地址：https:///abs/2411.15139
项目主页：https://github.com/hustvl/DiffusionDrive

HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder

机构：Nullmax
推荐理由：旨在提升端到端自动驾驶系统在闭环评估中成功率低的问题，特别是在规划模块的查询设计与交互方面，HiP-AD在nuScenes数据集上闭环碰撞率降低至0.7%，且支持车载芯片实时部署。
论文内容：

作者引入了一种多粒度的规划查询表示方法，整合了空间、时间和驾驶风格等多种采样模式下的异构路标点（heterogeneous waypoints）。这种表示为轨迹预测提供了额外的监督，增强了自车的精确闭环控制能力。

利用规划轨迹的几何特性，HiP-AD 结合可变形注意力机制，实现了基于物理位置的图像特征有效检索。这种机制允许模型动态地从透视视图中提取相关的图像特征，提高了感知的准确性。

同时，HiP-AD 在一个统一的解码器中同时执行感知、预测和规划任务。通过在鸟瞰图（BEV）空间中，规划查询与感知查询的迭代交互，实现了全面的任务融合。
论文地址：https:///pdf/2503.08612
项目主页：https://github.com/nullmax-vision/HiP-AD

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

机构：同济大学
推荐理由：该框架验证了视觉语言模型（VLM）与生成式规划结合的可能性；通过语言指令引导增强无地图场景泛化能力，为高鲁棒性自动驾驶规划提供了新范式。
论文内容：

作者通过鸟瞰图（BEV）特征提取与矢量化变换器，将多视角图像编码为结构化语义信息，并引入语言模态的常识知识（如交通规则、导航指令），弥合视觉与语言模态的语义鸿沟。

跨模态语言模型与自回归生成设计基于Transformer的生成模型，以自回归方式联合输出驾驶决策（如变道、避障）和细粒度轨迹。

并采用轻量化预训练架构（模型参数量仅0.4B），推理速度达188ms/帧，支持实时部署；通过语言指令引导（如“左转优先”），在无地图场景中泛化性能超越纯视觉方法15%。
论文地址：https:///pdf/2501.08861
项目主页：https://github.com/ltp1995/GPVL

延展阅读：告别激光雷达？特斯拉之后，GPVL 用纯视觉方案实现 188ms 生成安全轨迹！

End-to-End Autonomous Driving through V2X Cooperation

机构：香港大学、清华大学
推荐理由：首个端到端车路协同自动驾驶框架。
论文内容：

UniV2X整体借鉴了UniAD的transformer架构，能够输出检测、跟踪、在线建图、预测、栅格占据等中间结果，实现可解释的端到端方案。在传输过程中，UniV2X采用了混合传输融合架构，即query和概率图（probability map）的混合传输。

作者通过对路端和他车数据进行时间和空间同步，然后进行跨视角的数据特征融合，最终实现协同端到端。
论文地址：https:///pdf/2404.00717
项目主页：https://github.com/AIR-THU/UniV2X

—

端到端自动驾驶领域的

经典代表作

在端到端自动驾驶的发展历程中，以下几篇论文具有里程碑意义，一定程度上定义了技术演进的方向：

Planning-oriented Autonomous Driving

机构：上海人工智能实验室、武汉大学及商汤科技联合发表
奖项：CVPR 2023最佳论文，也是近十年来中国学术机构首次获此殊荣
推荐理由：作为CVPR 2023最佳论文，UniAD首次将感知（目标检测、车道线识别）、预测（轨迹预测、占据栅格）与规划任务整合到统一的端到端框架中，通过共享特征和显式任务交互提升规划性能，成为后续研究的基准。
论文内容：作者将感知、预测和规划等任务整合到一个网络中。该框架通过统一的查询接口进行任务间通信与协调，以规划为核心目标，联合优化目标检测、跟踪、制图、运动预测、占用预测和路径规划等任务。
论文地址：https:///abs/2212.10156
项目主页：https://github.com/OpenDriveLab/UniAD

VAD: Vectorized Scene Representation for Efficient Autonomous Driving

机构：华中科技大学、地平线
奖项： ICCV 2023
推荐理由：该论文提出了一种全新的端到端矢量化自动驾驶范式，通过矢量化场景表示显著提升了规划的安全性和效率，同时大幅降低了计算开销，对于自动驾驶系统的实际部署具有重要意义。
论文内容：论文提出了一种名为 VAD（Vectorized Autonomous Driving）的端到端矢量化自动驾驶范式，将驾驶场景建模为完全矢量化的表示。该方法利用矢量化的代理运动和地图元素作为明确的实例级规划约束，有效提升了规划的安全性。
论文地址：https:///pdf/2303.12077
项目主页：https://github.com/hustvl/VAD

End-to-end Autonomous Driving: Challenges and Frontiers

机构：上海人工智能实验室、香港大学、德国图宾根大学等机构发表。
奖项： IEEE PAMI 2024
推荐理由：这篇论文系统梳理端到端自动驾驶的挑战，融合多技术并提出新方法，在多个数据集上验证并提升关键指标，是端到端自动驾驶领域的重要参考。
论文内容：在本论文中，作者对250多篇论文进行了全面分析，涵盖了端到端自动驾驶的动机、路线图、方法、挑战和未来趋势。作者深入探讨了几个关键挑战,包括多模态、可解释性、因果混淆、鲁棒性和世界模型等。此外，还讨论了基础模型和视觉预训练的当前进展，以及如何在端到端驾驶框架内部署这些技术。
论文地址：https:///pdf/2303.12077
项目主页：https://github.com/hustvl/VAD

—

结语

端到端自动驾驶领域的研究正在飞速发展，不断涌现出创新性和实用性的成果。从早期的模块化设计到如今的端到端学习，从单一任务的优化到多任务的联合学习，从传统的感知和规划到如今融合了先进的人工智能技术如扩散模型、视觉语言模型等，这一领域的技术路线和研究范式正在经历深刻的变革。

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}

微精选

盘点｜近半年「端到端自动驾驶」推荐度最高的10篇论文！

最近文章