51c自动驾驶~合集57

whaosoft-143

1231人浏览 · 2025-06-03 00:15:00

whaosoft-143 · 2025-06-03 00:15:00 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/13960249

#端到端自动驾驶算法实现原理

1从传感器数据到控制策略的端到端方法

端到端自动驾驶基本流程：

（1）子任务模型被更大规模的神经网络模型取代，最终即为端到端神经网络模型；

（2）由数据驱动的方式来解决长尾问题，取代rule-based的结构。

优点：

（1）直接输出控车指令，避免信息损失；

（2）具备零样本学习能力，更好解决OOD问题；

（3）数据驱动方式解决自动驾驶长尾问题；

（4）避免上下游模块误差的过度传导；

（5）模型集成统一，提升计算效率。

2完全端到端是怎么做的

评估指标

●开环指标

○L2误差

○碰撞率

●闭环仿真

○路线完成率（RC）路线完成的百分比

○违规分数（IS）衡量触发的违规行为

○驾驶分数（DS）表示驾驶进度和安全性

3端到端的一些主流方法

3.1 UniAD算法详解

算法动机

●跨模块信息丢失、错误积累和特征misalignment

●负向传输

●安全保障和可解释性方面

●考虑模块较少

开创性思路

●第一项全面研究自动驾驶领域包括感知、预测和规划在内的多种任务的联合合作的工作

●以查询方式链接各模块的灵活设计

●一种以决策为导向的端到端框架

主体结构

该模型包括特征提取，特征转换，感知模块（目标检测+多目标跟踪+建图部分，TrackFormer、MapFormer），预测模块（MotionFormer、OccFormer），规划模块（指令导航、Occ矫正轨迹）

性能对比

消融实验证明各个模块都是不可或缺的，然后再去对比单个模块的性能。各个模块的对比这里不再展开。

3.2 VAD算法详解

算法动机

●栅格化表示计算量大，并且缺少关键的实例级结构信息

●矢量化表示，计算方面效率高

主体结构

该模型包括特征提取、特征转换、矢量化场景学习、规划模块。

性能对比

3.3 UAD算法详解

算法动机

●现存方法的标注和计算开销过大，所以本篇没有人工标注的需求

●感知模块的标注不是提升规划性能的关键，扩大数据量才是关键。只对数据量扩大但不增加标注成本。

开创性思路

●无监督代理任务

●自监督方向感知策略

主体结构

整体结构包括两部分的内容，分别是

●无监督的代理任务

输入是一个环视的图像，通过GroundingDINO（开集检测器，在训练集中10个类别的数据，但是验证集中有多出来的其他类别也要要求能检测出来），然后得到BEV特征，经过Dreaming Decoder得到预测结果与刚才说获取的标签去计算一个loss（二分类交叉loss）

用于对物体预测的Dreaming decoder的整体结构是：初始化K个角度的Query，BEV特征被分成了K个区域跟Query一一对应，经过GRU模块（用t-1时刻的Query和当前时刻t的特征F去计算当前时刻t的Query），用t时刻的特征和t时刻的Query做一个CrossAttention得到下一时刻的特征。即自回归的一种方式。Query之间对平均值和方差进行一个DreamingLoss，让其分布尽量相似。

●利用方向感知的规划模块

该模块包括三部分的内容

（1）PlanningHead规划头（通过模仿学习来计算未来轨迹，对BEV特征进行旋转，过规划头得到响应的预测轨迹，然后GT也要旋转，两者得到一个模仿学习的loss。）

（2）Directional Augmentation方向增强（先对轨迹沿着车辆行驶方向划分为直行、左转、右转，然后通过这个预测头做一个三分类）

（3）Directional Consistency方向一致性（旋转后的特征得到的轨迹再旋转回去之后，跟之前的对比得到loss。）

性能对比

3.4 SparseDrive算法详解

算法动机

●认为传统方法中BEV特征计算成本高

●忽略了自车对周围代理的影响

●场景信息是在agent周围提取，忽略了自车

●运动预测和规划都是多模态问题，应该输出多种轨迹

开创性思路

●探索了端到端自动驾驶的稀疏场景表示，并提出了一种以稀疏为中心的范式

●修改了运动预测和规划之间的巨大相似性，提出了一种分层规划选择策略

主体结构

输入环视的6幅图像，输出是其他agent的预测和规划结果。

中途处理过程包括：特征提取、对称稀疏感知、平行运动规划三大模块。

在对称稀疏感知模块中，主要包含：稀疏检测、稀疏跟踪、稀疏在线建图任务，我们来具体看一下。

在平行运动规划器模块中：作者认为其他agent的轨迹预测和自车的轨迹预测应该是一个任务，并且是互相影响的。

性能对比

3.5 ReasonNet算法详解

这是一个时序+多模态的方案，这篇论文对一些特殊的场景进行了考虑。

算法动机

●应该对驾驶场景的未来发展做出高保真的预测；

●处理长尾分布中罕见不利事件，遮挡区域中未被发现但相关的物体。

开创性思路

●提出一种新型的时间和全局推理网络，增加历史的场景推理，提高全局情景的感知性能；

●提出一种新基准，由城市驾驶中各种遮挡场景所组成，用于系统性地评估遮挡事件。

主体结构

这篇文章是多模态的，所以其输入是图像输入和雷达点云的输入所组成的，输出是waypoints。

主体结构分为三个模块：

●感知模块：从Lidar和RGB数据中提取BEV特征；

●时间推理模块：处理时间信息并维护存储历史特征的存储库；S用于计算存在Memory Bank中的历史特征和当前特征的相似度

●全局推理模块：捕获物体与环境之间的交互关系，以检测不利事件（如遮挡）并提高感知性能。

性能对比

基于本文提出的新的benchmark叫做DOS benchmark：四种场景分别包含25种不同的情况，包括车辆和行人的遮挡，有间歇性遮挡和持续遮挡但有交互线索。

3.6 FusionAD算法详解

这是一篇多模态的方案，是在UniAD的基础上加入了点云数据，改造成了多模态的方案。

算法动机

●传统的模块化方法没办法支持梯度反传，会造成信息的丢失。

●UniAD只支持图像输入，不支持激光雷达信息。

开创性思路

●第一个统一的基于BEV多模态、多任务的端到端学习框架，重点关注自动驾驶的预测和规划任务；

●探索融合特征增强预测和规划任务，提出一个融合辅助模态感知预测和状态感知规划模块，称为FMSPnP。

主体结构

该模型的主体结构包括特征融合模块、预测模块、规划模块。

性能对比

3.7 Hydra-MDP算法详解

CVPR 2024端到端自动驾驶挑战赛冠军+多模态方案，具备多个目标的多头蒸馏。

算法动机

本文作者提出的新的范式，就是规划模块是多模的输出，同时，目标也是多样性的，即不仅是GT的轨迹也同时引入了更多的正样本，由不同的专家给出的。此外，将后处理的模块变成了可微分的用于训练的神经网络的模块，从而消除了第二种范式中由于不可微分而带来的信息损失的情况。

开创性思路

●引入了更多的正样本，由不同专家给出；

●感知真值引入规划模块用于训练。

主体结构

第一部分是感知的信息处理融合和提取，第二个模块是用前面得到的特征去解码出轨迹，最后一个模块是多目标学习范式部分。

感知模块用的Transfuser的baseline

轨迹解码器：计算不同的预测轨迹与GT轨迹的距离，这里用的是L2，用这个距离做softmax，然后去产生不同轨迹的得分情况，从而去监督得分。

多目标多头蒸馏模块：我们看到轨迹模仿学习之后的轨迹还过了其他的MLP，这就是其他头，它的目标也是不一样的，第一个是跟碰撞相关的，第二个是跟行驶区域相关的，第三个是跟舒适度相关的，也就是说不同的评判指标都有一个teacher，之前的模仿学习就是人类的teacher，那么这些teacher是怎么来的呢？怎么通过这些teacher来蒸馏的呢？我们看下作者是怎么去做的，首先我们得到规划词表Planning Vocabulary之后，对规划词表进行了一个模拟（用感知模块的GT进行训练的），有了这两个之后，我们就能算出来这些评估指标，从而计算每条轨迹的得分。总结一下就是对整个训练数据集的规划词汇进行离线模拟，在训练过程中引入每条轨迹的模拟分数的监督。

性能对比

#雷军疑似回应余承东

哈哈俩个垃圾又开始打架了国产垃圾就是这么搞笑

6月1日，雷军发布微博称，2025年5月小米su7交付量超28000台。我们正在全力为小米yu7大规模量产做准备，预计7月份量产。此外，雷军还表示，刚学会一句莫言名言：诋毁，本身就是一种仰望。被不少网友解读为对余承东言论的隔空回应。

#Impromptu-VLA

告别双系统，清华博世带来完全开源性能SOTA的纯血VLA！

当前自动驾驶系统在城市和高速公路等结构化环境中取得了显著进展，但面对乡村小路、临时施工区、非标准交通规则以及恶劣路况等“非结构化场景”时，其鲁棒性和安全性仍面临严峻挑战。现有大规模自动驾驶数据集主要侧重于常规交通状况，导致在这些复杂多变的非结构化环境中缺乏专门的、大规模且精细标注的数据。为了弥补这一关键空白，清华AIR联合博世中央研究院提出并构建了 Impromptu VLA 框架，旨在提供一个开放权重和开放数据的驾驶视觉-语言-动作模型。Impromptu VLA 是一个完全端到端、无中间感知表征的“纯血VLA”系统，其从驾驶视频片段中直接提取多模态特征，并生成自然语言格式的驾驶命令，无需手工设计感知模块、行为先验或中间BEV表达。在NeuroNCAP闭环安全评测体系中，Impromptu VLA 展现出强大的决策稳健性与泛化能力，显著超越 CVPR 2025 最新提出的 BridgeAD 系统（2.15 v.s. 1.60）。

❝

论文链接: https://arxiv.org/abs/2505.23757

代码仓库 (Github): https://github.com/ahydchh/Impromptu-VLA

项目主页: http://impromptu-vla.c7w.tech/

数据集 (Hugging Face): https://huggingface.co/datasets/aaaaaap/unstructed

图 1: Impromptu VLA 的视觉摘要

表 1：闭环评估结果

研究背景

自动驾驶技术取得了显著进步，尤其是在城市和高速公路等结构化环境中，具备清晰的车道标记和可预测的交通流，其导航能力已日益成熟。然而，要实现“无处不在”的自动驾驶终极愿景，我们必须超越这些常规场景，深入探索复杂且往往难以预测的非结构化道路环境。这些非结构化场景涵盖了从乡村土路、动态施工区域到标志模糊地带，甚至是经历过自然事件恢复的区域，它们共同构成了自动驾驶系统亟待攻克的下一个重大前沿。目前，现有的自动驾驶系统在这些复杂场景中经常遭遇严峻考验，因此，要充分发挥“随处可达”的自动驾驶潜力，就必须在这些领域取得突破。

然而，成功应对这一前沿挑战受到专业数据严重稀缺的极大阻碍。尽管许多现有驾驶数据集为自动驾驶的当前进展奠定了基础，但它们主要侧重于捕获常见的、结构化的交通状况。这导致在处理非结构化环境的巨大多样性和独特挑战方面存在显著的“盲点”，例如道路边界不清晰、出现非常规动态障碍物、临时交通规则变化或恶劣路面条件等。如果没有大规模、精心标注且专门反映这些复杂条件的数据集，自动驾驶系统训练的有效性将受到严重限制，也难以严格评估其在此类场景中的适应性。

为解决这一数据稀缺问题，研究团队引入了 Impromptu VLA 数据集。该数据集包含约80,000个经过精心挑选和标注的视频片段，这些片段从八个公开来源的200多万个原始片段中提取而来，重点关注四类挑战性非结构化场景：边界不清晰的道路、临时交通规则变化、非常规动态障碍物和挑战性道路条件。

我们的主要贡献包括：

Impromptu VLA 数据集：一个公开可用、大规模、标注丰富的数据集，专门用于解决非结构化驾驶场景中的数据空白。
系统分类和数据整理管道：我们提出了一种新颖的四类非结构化场景分类法，以及可扩展的、以 VLM 为中心的数据管理流程，用于识别、分类和全面注释，并具有适用于训练高级 VLM 的多任务问答功能。
显著的性能提升： 大量实验证据表明，使用 Impromptu VLA 数据集进行训练可显著提升标准驾驶基准测试的结果，并可作为评估和改进非结构化环境中 VLM 能力的有效诊断工具。

方法

为了解决自动驾驶在非结构化场景中数据匮乏的关键问题，研究团队设计并实现了一套先进的数据处理和标注流程，通过以下几个关键步骤，从海量原始数据中提取并丰富出高质量的非结构化驾驶场景：

2.1 Impromptu VLA 数据集概述

当前研究社区缺乏足够大规模、多样化且精细标注的、专门针对非结构化场景的数据集。Impromptu VLA 数据集旨在弥补这一关键空白，推动自动驾驶在非结构化道路上的发展。该数据集最初从8个主要公共数据集（总计超过200万个视频片段，占用超过10TB存储空间）中聚合而来。经过精密的筛选机制，Impromptu VLA 被提炼成一个高度集中的约80,000个片段的集合。这些片段专门捕获了多样化的挑战性场景，包括边界不清晰的道路、存在非常规动态障碍物以及具有临时或非标准交通规则的路段。

表 2：数据集信息

2.2 定义非结构化驾驶场景分类体系

创建 Impromptu VLA 数据集的一个主要目标是超越对“非结构化”的笼统模糊看法，建立对这些环境所呈现具体挑战的更细致理解。为了实现这一目标，并将数据集聚焦于真正考验当前自动驾驶系统极限的场景，研究团队初步开展了一项数据驱动的过程，定义了一个简洁而全面的非结构化道路场景分类体系。

该分类体系的定义方法始于对收集到的数据进行广泛、无偏见的探索。首先，研究团队通过从聚合和标准化后的多源数据集中以固定间隔采样约10%的片段，创建了一个具有代表性的子集。随后，利用强大的视觉-语言模型 Qwen2.5-VL 72B 的能力，对该子集进行开放式描述性分析。

接下来的阶段是一个多阶段、高度自动化的过程，旨在将这些描述提炼成有意义的非结构化挑战类别。首先，为了以编程方式识别并过滤掉常规驾驶场景，研究团队采用了另一个基于 VLM 的分类步骤。Qwen2.5-VL 生成的每一个初始的、丰富的场景描述都使用精心设计的提示（prompt）进行评估，该提示指示 VLM 扮演场景分类器的角色，判断该描述是否属于非常规情况。为了确保这种基于 VLM 的过滤提示的可靠性和有效性，研究团队进行了一个迭代优化过程。该过程在一个包含约1000个场景描述的验证子集上进行了测试，这些描述也由两名人工标注员独立地手动标注为“常规”或“非常规”。VLM 的分类结果与人工共识进行比较，并迭代调整提示，直到达到高度一致。

对于从完整数据集中选出的非常规场景，研究团队进行了语义级分析，以识别重复出现的模式，并将语义相似的非结构化场景进行分组。这种聚类方法促成了潜在子类别的自下而上涌现，例如涉及“不清晰的道路边缘”、“临时道路施工”、“道路上的动物”或“由于下雪导致能见度差”等。通过对这些机器生成的簇进行迭代细化、整合以及基于这些组中识别出的主要驾驶复杂性来源进行抽象，研究团队最终确定了以下四个突出的高层类别 ：

道路边界不清晰（Roads with unclear boundaries）: 路径模糊或未定义的场景，例如乡村土路、越野小径或标记褪色/缺失的道路。这些场景严重挑战了车道检测和可驾驶区域分割等感知任务。
临时交通规则变化（Temporary traffic rule changes）: 标准交通规则因施工区、人工交通指挥员或临时标志而暂时改变的动态情况，要求自动驾驶车辆适应非寻常的指令和道路布局。
非常规动态障碍物（Unconventional dynamic obstacles）: 在典型城市驾驶中不常见的动态物体或障碍物，需要专门的交互策略。例如，大型或不规则行驶的车辆、出现在意外位置的弱势道路使用者，或者遭遇动物，所有这些都构成了突发危险。
挑战性路况（Challenging road conditions）: 包括恶劣路面（如坑洼、泥土、雪、冰）或环境条件（如雾、大雨、弱光、眩光）严重影响能见度或车辆行驶的场景，使危险感知和安全导航复杂化。

2.3 数据处理和标注

图 2：数据处理和标注流程

关键片段选择和稳定性过滤（Keyclip Selection and Stability Filtering）: 所有收集到的序列首先被标准化为统一的 2Hz 时间速率，解决了来自不同来源的不一致性。研究团队将片段配置与 NAVSIM 对齐，保留过去1.5秒和未来5秒的数据，并从每个包中选择中心关键片段进行标注。

通过 CoT 提示进行场景分类和结构化信息提取（Scene Classification and Structured Information Extraction via CoT prompting）: 选定的关键片段使用 Qwen2.5-VL 72B 和思维链（CoT）提示进行分类，以提取超越简单描述的丰富结构化信息。这种层次推理过程分析了整体场景描述、静态道路特征、可移动物体，并最终分配到四个非结构化场景类别之一。

多任务标注生成（Multi-Task Annotation Generation）: 利用场景类别和在 CoT 过程中提取的结构化信息，研究团队进一步丰富了每个关键片段，提供了多样化的任务特定标注，这得益于 Senna 等综合标注框架的启发。这种多任务标注是通过规则和LLM结合的方法实现的。具体来说，研究团队为每个选定的关键片段生成了以下标注：

场景描述（Scene Description）: 通过对 VLM 进行有针对性的查询，生成捕获整体环境上下文、时间、天气和交通状况的全面描述。
交通信号检测（Traffic Signal Detection）: 通过进一步的 VLM 查询，识别活动交通信号的存在状态和类型。
弱势道路使用者（VRU）识别（Vulnerable Road User (VRU) Identification）: 关于 VRU 的信息，包括其存在、类型（例如，行人、骑自行车者）以及与自车距离，均从真实数据中获取。
运动意图预测（Motion Intention Prediction）: 为了捕获动态方面，场景中关键参与者的预测运动意图由 VLM 生成。
元动作规划（Meta-action Planning）: 为自车制定高层计划（例如，加速-左转、保持直行），通常通过基于场景上下文的 VLM 提示来实现。
规划解释（Planning Explanation）: 由 VLM 生成文本解释，合理化自车在场景中潜在或实际的机动行为。
端到端轨迹预测（End-to-End Trajectory Prediction）: 通过在真实数据中构建过去车辆状态和相应的未来目标轨迹来策划支持此任务的数据。

全面人工验证（Comprehensive Human Verification）: 所有生成的标注——无论是主要的非结构化场景类别还是后续的多任务标签——都经过了细致的人工验证过程。标注员审查每个关键片段及其相关标签，提供二元判断（接受/拒绝）或在必要时进行小的修正来确保整个数据集的高保真度。为了在进行广泛人工审查之前定量评估 VLM 在我们定义的非结构化类别上的场景分类性能，研究团队在从 nuScenes 数据集中间隔采样的200张图像子集上进行了评估。将 VLM 分类结果与专家手动标签进行比较，结果显示几个类别获得了较高的F1分数：“临时交通规则变化”为0.90 ，“非常规动态障碍物”为0.81 ，“挑战性路况”为0.91。由于“道路边界不清晰”类别在 nuScenes 子集中过于稀有，因此无法进行有意义的F1分数计算。这些验证结果为我们标注流水线中基于 VLM 的阶段提供了信心。

2.4 数据集统计（Dataset Statistics）

最终的 Impromptu VLA 数据集包含大量经过标注的片段，这些片段专门针对其非结构化道路特性进行了策划。图 3 展示了从每个源数据集中提取的这些片段的总数，这些片段在四种非结构化场景类别（第2.2节中介绍）中的整体分布，Impromptu VLA数据集和原始数据集的轨迹分布情况比较，以及数据集中来自不同源数据集的不同类别的场景。

图 3：Impromptu VLA 数据集特征

为了最大限度地提高该数据集在训练和评估感知和规划模型方面的效用，为每个片段生成的丰富多任务标注（如第2.3节所详述）被结构化为面向规划的问答（Q&A）对。这种格式，灵感来自 DriveVLM 或 EMMA 等框架，将视觉输入、文本输出和动作轨迹预测直接关联到 LLMs 的序列空间中。为了标准化评估，整个数据集的策划片段，跨越所有四种非结构化类别，研究团队将数据按照80:20的比例划分为训练集和验证集。这种分层在每个类别内进行，以确保验证集保留了所有定义的非结构化道路挑战的代表性分布。

实验

本节通过实证验证 Impromptu VLA 数据集对推动自动驾驶模型发展的影响。我们旨在回答以下问题：

用我们的数据集进行训练是否能改善视觉-语言模型 (VLM) 在现有基准测试（包括闭环和开环）上的性能？
Impromptu VLA 数据集在哪些具体方面（感知、预测或规划）增强了 VLM 性能？我们的验证集及其详细的面向规划的问答 (Q&A) 如何有效地作为诊断基准，以查明这些贡献并评估模型在这些不同任务中的能力？

3.1 推动现有端到端自动驾驶基准的边界

闭环评估。我们选择 NeuroNCAP ，这是一个全面的闭环评估框架，它利用 nuScenes 数据集来模拟各种挑战性的真实世界驾驶场景，从而评估自动驾驶车辆在不同条件下的规划和控制系统在安全性和效率方面的表现。NeuroNCAP 评估主要通过碰撞率和 NeuroNCAP 分数 (NNS) 来量化性能。NNS 的计算方式类似于5星评级系统：如果未发生碰撞，则得分为5.0分；否则，得分计算为，其中 vi 是实际碰撞速度（自车与碰撞物体之间相对速度的大小），vr 是在未执行规避动作时会发生的参考碰撞速度。这意味着如果未避免碰撞，随着碰撞速度 vi 接近或超过参考速度 vr，分数会从潜在的4分线性下降到0分。另一方面，碰撞率直接跟踪导致碰撞的场景百分比。这两个指标根据交互类型（例如，正面、侧面）进行分类。

我们的方法涉及对两种不同训练流水线进行的比较研究。这里的基础模型是 Qwen2.5VL 3B。第一种流水线，我们在 表 1 中称之为 “Base+Impromptu+nuScenes”，包括首先在 Impromptu VLA 数据集的训练集上对基础 VLM 进行微调，然后在此基础上进一步在 nuScenes 训练集上对该适应模型进行微调。第二种流水线，“Base+nuScenes”，直接在 nuScenes 训练集上对基础 VLM 进行微调，而无需接触 Impromptu VLA。然后，这两个模型都在 NeuroNCAP 基准上进行评估。结果显示，使用Impromptu数据集之后的NNS有显著提升，碰撞率也有明显下降。

图 4: 闭环评估可视化

开环评估。除了闭环仿真，我们还进行开环评估，以专门评估 Impromptu VLA 对 VLM 轨迹预测准确性的提升。为此，我们同样使用 nuScenes 数据集，重点关注端到端轨迹预测任务。性能主要通过预测轨迹与真实轨迹在未来1秒、2秒和3秒时间范围内的L2距离（单位：米）以及平均L2误差来衡量。实验方法与闭环测试中使用的比较方法相同。我们比较了 Qwen2.5VL 3B 和 7B VLM 的两种主要训练策略：(1) “Base+nuScenes”，其中基础 VLM 直接在 nuScenes 数据集上进行微调；(2) “Base+Impromptu+nuScenes”，其中基础 VLM 首先在我们的 Impromptu VLA 上进行微调，然后在此基础上进一步在 nuScenes 上对该适应模型进行微调。这种比较旨在分离出在我们的数据集上进行预训练对在不同场景中进行轨迹预测任务所带来的益处。结果与几种最先进的方法进行比较，详见 表 3。

表 3：开环评估结果

nuScenes 基准上的开环轨迹预测结果表明，当模型在 Impromptu VLA 数据集上进行预训练时，性能显著提高。在1秒、2秒和3秒预测时间范围内，轨迹预测准确性的提升始终如一。令人印象深刻的是，这种增强使我们适应后的 3B/7B 模型性能达到了与 EMMA+ 等领先方法（平均L2误差为0.29米）具有竞争力的水平 ，尽管 EMMA+ 受益于 Waymo 引入的包含数百万个场景的更大规模内部数据集的训练。这凸显了 Impromptu VLA 数据集（80K片段）在显著提升轨迹预测能力方面的有效性。

3.2 对 Impromptu VLA 上 VLM 能力的诊断性评估

为了回答第二个问题——探究 Impromptu VLA 数据集在自动驾驶的哪些具体方面（感知、预测或规划）得到了增强，以及我们的验证集如何作为诊断基准——我们使用其面向规划的问答任务进行了一系列评估。这包括比较基础视觉-语言模型 (VLM) 与在我们数据集上进行任务导向微调的版本之间的性能。

表 4：VLM能力评测

Impromptu VLA 验证集上的定量评估结果（总结在 表 4 中）清楚地表明，在我们数据集上进行微调可以显著提升自动驾驶的所有关键方面，包括感知、预测、规划推理和规划轨迹。

结论与展望

该项工作提出了 Impromptu VLA 数据集，这是一个精心策划的基准，包含大约80,000个视频片段，这些片段具有丰富的多任务问答标注和相应的动作轨迹，专门设计用于解决自动驾驶在非结构化环境中面临的关键数据稀缺问题。我们的全面实验表明，使用 Impromptu VLA 数据集训练的视觉-语言模型取得了显著的性能提升，这体现在 NeuroNCAP 基准上闭环安全性与驾驶分数的提高，以及 nuScenes 上开环轨迹预测准确性的改善。此外，对我们数据集验证套件的评估证实了其作为诊断工具的有效性，揭示了模型在处理多样化和挑战性非结构化道路场景时，在感知、预测和规划能力方面的具体进展。因此，Impromptu VLA 数据集提供了一个宝贵的新资源，以促进开发更鲁棒、适应性更强和能力更强的自动驾驶系统，为应对现实世界的复杂性做好准备。

局限性。我们承认 Impromptu VLA 数据集主要依赖 Qwen2.5-VL 进行标注生成，这可能引入潜在的模型特定偏差。然而，我们相信全面的人工验证以及在增强非结构化场景中视觉-语言模型性能方面所展现的效用，证实了其作为研究资源的重大价值。

#自动驾驶规划控制方向，如何从EM planner 中找idea？

自动驾驶规划控制基础知识

进入2025年，端到端进一步铺开落地，新一代基于VLM的端到端系统也在大力突破。而实际量产中算法仍然需要传统规控兜底！尤其是对安全性要求更高的L4，传统规控仍然占据主导地位！因此在当前趋势下，传统规控有哪些经典和创新的落地方案？一段式、两端式端到端以及最新VLM/VLA的核心思想是什么？实际落地中传统规控和端到端框架又是如何融合的？是当下从业小伙伴实际需要思考的问题。秋招将至，我们为汇总了自动驾驶规划控制方向的常见面试题，欢迎一起学习交流~

1.1 端到端自动驾驶能否成为未来主流，或者说端到端方法有什么优点，期望解决什么问题？

❝

答：目前业界广泛采用的是模块化框架，将复杂的自动驾驶任务分解成单独的子模块:定位、感知、预测规划和控制。这种方法的优点是每个子模块都可以单独调优，且具有自己的评价指标，可以很好地进行评估。同时，这种方法具有很好的可解释性，每个子模块都可以单独进行可视化，在面对失败情况时，可以快速debug。但是，这种方法也有许多缺点，我认为可以总结为如下3点:

模块的结果是逐层传递的，每个模块的输出都是下一个模块的输入。这会造成误差的累积，最后产生不可靠的结果。 (如感知模块对前方障碍物漏检或虚检，会造成预测模块给出错误的预测结果进而导致规划模块的结果不可靠)

每个模块都需要单独进行调优，每个模块的优化目标缺少对下游模块需求的考虑，造成一种“各自为战”的局面，模块单拎出来性能不错，但整个系统最终的结果却不尽人意。 (如感知模块追求的是对周围环境的准确感知，但下游规划模块关注的更多是目标区域的场景信息，你感知只要把前方一段距离内的场景充分感知就OK了，其余的并不是很重要)

模块之间存在数据的浪费和重复计算，造成计算资源的浪费。 (如感知有时需要融合多帧信息，获得更加准确的结果。而预测也需要融合多帧结果，造成了重复计算，浪费了计算资源)

1.2 如何从EM planner 中找idea？

❝

答：EM planner可以当作一个框架来学习，它里面一些子模块的算法是有些缺点的，有可以改进的点。EM planner这个框架跟CMU12年的一篇论文极其相似“A Real-Time Motion Planner withTrajectory Optimization for AutonomousVehicles”，CMU JM Dolan的实验室出了比较多planning领域的知名工作，可以去找找看，早期waymo和uber的无人车基本都是他们那批人在搞。

1.3 PNC公司面试基本要求？

❝

答：实习的话面试要求相对低一些，有点pnc相关的项目经验写简历上，基本就有面试机会了，面试也主要是聊聊项目，看看你对自己项目了解多深，是不是自己亲自做的，也可能会考一道比较简单的算法题，看看编程能力，有些公司实习甚至都不用写代码。

apollo就看看论文，看点博客然后直接啃代码就行，apollo planning 的软件架构稍微有点复杂，但核心算法就在那几个task里，看不懂整体都没事，把核心的task看透，面试就有的吹了。这些课程中会讲到。

有些公司找实习生很草率的，不那么一线的公司非常有可能不考算法题或者贼简单的来一道意思一下。有的公司面试是每一轮都有题(百度，滴滴，华为，...），也有的公司是第一轮纯项目，第二轮纯代码(图森第二轮会直接给你来2 3道题难度递增)。

如果你的论文很对口，会当作一个项目来问你，如果和自动驾驶规控没那么相关的可能都不会问。论文不是必须项，至少现在看来是这样。有一些没论文，但工程项目、代码能力很强，也可以拿到很好的offer。

1.4 C++ & ROS 或者 Matlab & Simulink如何选择？

❝

答：如果是验证planning算法，其实自己搭环境都可以验，在ros中写个节点，随机生成点障碍物pub出来，另一个节点sub一下，然后做算法。如果想做车辆动力学级别的仿真，还是matlab+simulink那一套。在ros生态中没有能把车辆轮胎动力学这个级别的仿真做的比较好的。Ros+carla验planning可以的，这个相对比较成熟，github上能找到很多demo。自动驾驶公司和造车新势力基本都是要求C++，一些传统主机厂会要matlab+simulink技术栈的。

1.5 博弈论用于规控的论文？

❝

答：“Efficient Iterative Linear-Quadratic Approximations for Nonlinear Multi-Player General-Sum Differential Games”；“Game Theoretic Modeling of Vehicle Interactions at Unsignalized Intersections”。关键词：Game Theory，Autonomous Driving。

1.6 有什么算法能在考虑运动学模型的情况下保证轨迹覆盖一片区域么？

❝

答：“R.Bormann, F. Jordan, J.Hampp, M.HageleIndoor Coverage Path Planning: Survey,mplementation,Analysis.In Proceedings ofthe IEEE International Conference on Roboticsand Automation (ICRA),2018”，该论文主要介绍了全覆盖路径规划Q (CCPP:Complete Coverage Path Planning) 算法。

1.7 用piecewise jerk做速度规划有什么优缺点吗？

❝

答：缺点是他是先把t纬度固定了，去优化s及其导数，但速度优化本质上是s t同时优化的，因为优化出了速度，加速度这些量之后反过来也会影响到达每个s的t。apollo中speed planning的dp部分就把t纬度固定了，算是一种近似。Speed Planning in Dynamic Environments over a Fixed Path for Autonomous Vehicles，这篇文章有对速度规划中的非线性部分做系统的讲解

1.8 在格栅图做路径搜索怎么考虑运动学约束呢？（在格栅图做覆盖式路径搜索怎么考虑运动学约束

❝

答：可以找扫地机器人方向的论文看看。不过对于覆盖式搜索的结果应该只是一条全局路径吧，需要保证运动学可行吗？一般都会实时生成一条质量更高的局部路径下发给控制。一般扫地机底盘都是差速模型，他们可能也不考虑全局路径是不是运动学可行的，反正差速底盘可以原地旋转。

1.8 PNC中如何考虑动态障碍物？

❝

答：思路是把动态障碍物当作静态来处理，但要做一些估计来选择"关键"时刻的障碍物，保证自车行为不会过度保守，后面课程中会细讲。

1.9 qp中引入松弛因子有什么作用呐？都可以解决什么问题呐？

❝

答：加松弛因子主要作用是把一个约束变成软约束，比如说在规划问题中一般会有多条描述可同行区域的boundary，有的boundary是严格不能违背的，而有些boundary我们认为是可以违反的，但希望尽可能不要去违反，那么就可以在这些软约束上加入松弛因子，然后把这些松弛因子放到cost function中惩罚，通过权重约束来调节约束的软硬程度。

1.10 实际用格栅地图的时候格栅的尺寸怎么设计能和车的参数配合比较好？

❝

答：

#Gaussian Splatting

关注计算机视觉/图形学的朋友肯定早就听过Gaussian Splatting的大名，本文旨在分享笔者对Gaussian Splatting的理解。和大部分同类文章相比，本文

不会涉及任何（难以理解的）数学
从可微渲染（Differentiable Rendering）的角度进行思考，这也是笔者认为最能领会3DGS之优雅的切入点
从geometry的角度“抨击”3DGS，聊一聊在什么意义下3DGS是不好的

下面开始~

0. Gaussian Splatting是干啥的

一言以蔽之：Gaussian Splatting提出了一种三维表达（3D Gaussian）和配套的渲染方式（Splatting），能够1）迅速地重建现实世界中的场景 2）用重建的场景渲染新视角图片，速度特别快（实时渲染) 3）用重建的场景渲染新视角图片，看起来特别真实

对原文的teaser进行解释：

Gaussian Splatting Teaser. 给定一个公园自行车场景的多视角图片，用不同的方法重建该场景，并实时渲染一段视频。其中135 fps代表3DGS单次渲染很快，Train: 6min代表根据输入图片重建场景的过程很快，PSNR:23.6代表重建精度（真实感）很高

在这三个功能中，实时渲染的能力来自于对渲染过程的优化，本文不会过多深入；而“快速精准重建”的能力，来自于可微渲染——3DGS是一套高效的渲染框架，更是一套高效的可微渲染框架。

让我们先用一小节，理解一下可微渲染在解决什么样的问题。

1.高观点可微渲染：逆渲染和不连续

考虑一个通用的渲染过程：我们有一堆原料——物体（形状、材质、位置）和光照，将它们统一写作x；还有一个渲染器，它写作一个从“原料空间”到“图片空间”的函数f。那么任何一个正向渲染过程，就是根据原料，使用渲染器，求得一张图片（写作y）的过程，即y=f(x)。

逆渲染是这个过程的逆过程，给定一张图片，逆渲染希望通过某种手段，求出其对应的“原料”，这个目标可以写作 = ()。

图片来源：Shuang Zhao, WENZEL JAKOB, TZU-MAO LI, Siggraph 2020 PBDR Course

现实中，渲染过程的“逆过程”非常难以表达，如何想象光栅化的逆过程？但好在我们的目的并不是求出逆过程的表达式，而是用某种手段推测出，这只需要一个更松弛的条件——，有了它，我们就能用梯度下降等方式，不求逆过程表达式，一样能推测出正确的。

到这里，相信读者也明白这里的某种手段是什么了，就是可微渲染！所谓可微渲染，指的就是这样一类正向渲染方法：其产生的图片对产生它的“原料”是可微的。更具体一点，就是指当某个“原料”的值（物体或光照）变化一点点时，能够知道图片上任何一个像素的颜色变化了多少，朝什么颜色变化。

可微渲染是通往逆渲染的可能途径，但这是条很不简单的途径，下面来介绍一下可微渲染的核心问题：不连续（后文会涉及3D Gaussian是怎么解决这个问题的）

想象一个简单的场景：两个三角形被渲染到了一张图片上，不考虑光照/shading，每个像素简单获得其对应的三角面颜色，那么这张图会像这样：

图片来源：Shuang Zhao, WENZEL JAKOB, TZU-MAO LI, Siggraph 2020 PBDR Course

对于其中的每一个像素颜色，显然它与三角面颜色的映射关系不难建立：当三角面颜色变化一点时，与之对应的像素颜色都会发生对应的变化，在这个例子里，因为每个像素直接获取了三角面上的颜色，所以二者是相等的关系。我们当然可以通过梯度下降优化三角面颜色，如果我们加入材质贴图，就能获得更强的表达能力，可以优化出各种图案。

一切似乎很简单，但是如果我们考虑优化这两个三角面的位置呢？

那我们需要知道，当三角形的位置移动一点时，每个像素的颜色应该怎么变，变多少。

这真的可能吗？我的意思是，导数真的存在吗？当三角形的位置移动一点时，像素的变化真的是连续的吗？

在这张图上，并不是！

考察三角形的边缘，我们放大一点来看，只看两个像素：

图片修改自：Shuang Zhao, WENZEL JAKOB, TZU-MAO LI, Siggraph 2020 PBDR Course

当红色三角形向右移动一个极小量时，有两种可能：

当边界本来就离右边像素比较远的时候，颜色不变，当边界恰好离右边像素很近时，变成红色

也就是说，对于右边这个像素来说，三角形向右的移动量-颜色的函数是这样：

图片取自前文Siggraph课程。这里我们用横轴代表向右移动量，p代表临界位置，在p前颜色是白色，在p后突变为红色

这个函数的导数在大部分位置是0，在其他所有位置上都不存在！

也就是说，当这个三角形移动一点时，我们不知道它的边缘上像素的颜色变化应该是多少，因为这个数字要么是0，要么不存在！

到这里，相信读者也明白了可微渲染的核心问题：位置“不可微”。

当然，这个问题实际上并非无解，因为位置并不是真的“不可微“。这里就不介绍其他可微渲染的解决方法了（如果大家想看请在评论区留言，可以开个新坑。

带着可微渲染的核心问题，下一章我们将进入Gaussian Splatting的世界

#DiffE2E

Diffusion重塑端到端自动驾驶

为了避免感知、预测、规控各个模块之间的信息传递损失，端到端可谓是当下自动驾驶领域最主流的技术方向，没有之一。现在主流玩法是用显式监督学习，直接从海量驾驶数据里学怎么把环境信息变成方向盘和油门控制。不过这路子也有两个较大的硬伤：开车本来就有多种可能性（比如遇到障碍可以绕左或绕右），但监督学习只会学个"平均动作"，结果经常整出别扭操作；而且遇到训练数据里没见过的奇葩路况，模型就直接懵了。

论文链接：https://arxiv.org/pdf/2505.19516

设想一下，遇到一个十字路口，老司机可能有五六个合理选择，而现在的AI只会选个相对比较折中方案。为了解决这个问题，最近也有人用离散轨迹集合来应对多模态问题，但这种硬编码的方式就像把活人手脚绑住，把灵活的决策变成固定选项选择题，遇到突发状况就抓瞎。这时候扩散模型（Diffusion Models）就可以大展身手了！这项技术其实在AI作画圈已经封神，靠"先加噪再去噪"的套路能生成千变万化的图片。机器人运动规划领域也验证了它能搞定复杂动作序列。但自动驾驶任务要更为困难——既要实时响应，又要确保轨迹符合交规，还得躲开乱窜的行人和车流。

所以，最近有些团队试水用扩散模型做路径规划和端到端控制，用了DDIM、DPM-Solver这些加速技术，效果确实惊艳。不过现在多数方法只是把扩散模型当"后处理插件"（如图1(b)），在传统规划模块后面加个扩散优化。这相当于戴着镣铐跳舞——既丢了原始感知数据的细节，又被前面的模块限制发挥。

基于这样的背景之下，作者提出了一个新的方案—— DiffE2E 框架（如图2所示）。首先用双向跨注意力让激光雷达和摄像头的数据对齐，把不同传感器的信息融合到一起。然后送进Transformer架构的混合解码器，让扩散模型和传统监督学习组队打配合：扩散模型负责天马行空地想象各种可能轨迹，监督学习则盯紧车速、周围车辆动态这些硬指标。这俩通过跨注意力机制实时交换信息，最后生成既灵活又靠谱的驾驶方案。

相关研究端到端自动驾驶

端到端自动驾驶近年来在跨模态感知融合与决策规划方面突飞猛进。UniAD 构建了全栈Transformer架构，将感知-预测-规划任务统一编排；VAD 提出矢量化场景表征提升规划效率；VADv2 通过轨迹词库建模动作空间分布；SparseDrive 提出稀疏轨迹表征实现无BEV的高效驾驶；Hydra-MDP 系列设计多教师蒸馏框架，将规则系统与人类驾驶知识相融合。Transfuser 通过 Transformer 融合相机与激光雷达特征应对路口决策；TCP 联合训练轨迹与控制预测；InterFuser 引入安全思维图谱实现多视角跨模态融合；TF++ 则通过解码器增强与解耦速度预测提升性能。不过这些显式监督方法常将多模态驾驶行为压缩为单一确定性输出，在多选择场景中容易产生"平均化"决策。虽然在特定场景表现亮眼，但面对超出训练数据的复杂路况时泛化能力明显受限。

扩散模型在交通与自动驾驶中的应用

扩散模型正以强大的多模态生成能力应用于自动驾驶。Diffusion-ES 创新地将进化策略与扩散模型结合，在nuPlan基准测试中零样本性能碾压传统方法；VBD 用博弈论指导对抗场景生成，提升仿真真实性；MotionDiffuser 提出置换不变架构实现约束条件下的多智能体轨迹采样，保证交互一致性；Diffusion Planner 利用 DPM-Solver 和分类器引导，实现闭环规划中快速、安全、个性化的轨迹生成。不过这些方法多基于完美感知假设，忽视了实际应用中感知不确定性带来的状态估计误差。

在端到端自动驾驶领域，扩散模型的应用已崭露头角：DiffusionDrive 首次将扩散模型引入端到端驾驶，采用锚点策略平衡实时性与多样性；HE-Drive 通过条件 DDPM 和视觉语言模型打分，生成拟人化的时空一致轨迹；GoalFlow 用目标驱动的流匹配解决轨迹发散问题，实现高效一步生成。这些工作体现出了扩散模型在该领域的巨大潜力，但现有方法在感知-规划协同优化、实时性保障等方面仍有提升空间。

预备知识

问题定义：这篇论文聚焦于基于扩散模型的端到端自动驾驶闭环控制策略。系统直接以多模态原始感知数据作为输入，包括前视摄像头RGB图像、激光雷达点云及车辆状态信息。系统输出自车未来轨迹，其完整采样分布表示为：

在扩散建模中，表示扩散过程第步的中间变量，最终预测轨迹为，其中每个路径点表示预测轨迹中的位置信息。条件信息通过跨模态特征融合模块从多模态传感器数据编码获得。与传统开环控制不同，闭环控制中当前时刻的轨迹决策直接影响下一时刻的感知输入，形成动态反馈回路。这种耦合关系要求模型具备强大的时序一致性与鲁棒性。

扩散模型：去噪扩散概率模型（DDPM）通过两阶段过程捕捉复杂多模态分布：前向扩散逐步加噪，逆向过程通过迭代去噪重建数据。前向过程遵循马尔可夫链，将数据经步转化为噪声：

其中控制噪声水平。通过重参数化技巧可直接采样：

式中。虽然DDPM能生成高质量样本，但其串行化过程计算开销较大。DDIM 通过非马尔可夫过程加速生成，在保持质量的同时使扩散模型更适用于实时自动驾驶应用。

方法论

DiffE2E框架如上述图2所示，其核心由多模态感知模块与混合解码器构成。感知模块通过层次化双向跨注意力机制实现激光雷达点云与前视图像的特征对齐，生成结构化场景表征。解码阶段引入 Transformer 架构的混合扩散-监督解码器，通过协同训练机制实现多目标优化。

多模态融合感知模块

感知模块的目标是融合多模态传感器数据，构建结构化的环境表示。本文采用Transfuser架构作为基本感知骨干网络，输入包括广角前视RGB图像和从原始激光雷达点云构建的鸟瞰图。在两个分支中提取初始特征后，它们进入由多个Transformer层组成的多尺度交叉融合模块，通过跨模态注意力机制实现激光雷达和图像特征之间的深度对齐和信息交互。最终，该模块输出高维融合特征、全局语义表示以及图像特征网格，以支持下游决策模块的细粒度建模需求。

混合扩散和监督模块

在多模态融合感知模块完成不同传感器数据的整合后，本文提出的DiffE2E框架采用了一种创新的架构。通过引入基于Transformer的混合扩散-监督解码器，并采用协作训练机制，无缝整合了扩散策略和监督策略的优势。

全局条件整合机制: 为了增强目标点在轨迹生成中的影响力，将它们用作全局条件。首先通过线性层将目标点投影到共享的高维空间中，形成表示。同时，将扩散时间步编码成时间嵌入，以帮助模型适应不同去噪阶段。最后，将条件特征、目标特征和时间步嵌入进行融合，并与可学习的位置编码结合，形成用于轨迹解码的上下文表示：

这种全局条件整合机制将目标点信息和时间步嵌入整合到感知特征中，增强了模型对导航目标的感知能力，并使特征表示能够在去噪过程中动态调整，以实现更精确的轨迹生成。

混合扩散和监督解码器: 如果轨迹长度为，论文中用表示自车未来的轨迹。用表示嵌入层的特征维度，表示监督任务的特征长度，论文中设计的混合解码器首先通过线性投影层将噪声轨迹映射到高维特征表示中，同时连接初始化的监督任务查询向量，并添加可学习的位置编码，以获得初始化输入向量：

在整个扩散过程的每个时间步，输入首先通过多头自注意力层来处理内部的特征关系：

然后，通过交叉注意力机制，与条件特征进行交互，产生最终输出：

其中，表示解码器输出后的特征向量，是当前扩散时间步，是整合了目标点的条件特征，是从多模态感知模块获得的特征长度，是目标点特征的长度，是扩散时间步特征的长度。同样，在输出特征中，前个位置对应于扩散轨迹生成的潜在特征，而后个位置是监督任务的潜在特征。

解码器输出模块: 解码器输出模块对混合特征进行精细化处理，实现扩散生成和监督学习的混合解码。该模块采用特征分离和任务特定解码策略，在语义空间中结构化地分解输出特征：

其中，编码了扩散轨迹的高维潜在表示，而包含监督任务的结构化特征信息。

扩散和监督学习写作训练策略

基于上述混合扩散和监督解码器结构，论文中提出了基于扩散生成和监督学习的协作训练策略。该策略的核心在于结合扩散模型的生成能力和显式监督的精确性，形成互补优势。

扩散loss函数: DiffE2E采用基于轨迹重建的损失函数进行扩散生成，直接优化模型从噪声输入中恢复原始轨迹的能力。用表示整个模型，损失函数表示为：

监督学习loss: 监督学习损失采用多任务组合优化策略，通过任务特定权重系数实现精细的梯度流控制和优先级分配：，其中表示监督任务的集合，是任务权重，表示任务的具体损失函数，和分别是真实标签和预测值，表示网络参数。例如，对于监督学习中的速度预测任务，论文中构建了一个基于语义分层的多类别分类模型，包括四个具有明确物理意义的速度状态：制动、步行速度、慢速和快速。通过加权交叉熵损失函数优化分类预测精度：

其中，是批量大小，表示第个样本在第个速度类别中的真实标签（one-hot编码），表示预测概率，是平衡权重，用来平衡类别的不均衡，eps是一个常数。

实验及结论

CARLA 中的实验结果

论文中主要使用CARLA模拟器的闭环基准测试。

主要结论: 如表1所示，DiffE2E在CARLA Longest6基准测试中表现出色。在三个关键评估指标中，DiffE2E均排名首位：DS为83（比TF++WP高出13.7%），IS为0.86（比DriveAdapter+TCP高出2.3%），RC为96，接近最优。总体而言，DiffE2E提供了稳健、高效的端到端驾驶性能。

定性结果分析: 图3展示了在一个典型的右转场景中的比较。最初，TF++和DiffE2E都计划通过先向右合并来规划路径。当出现一辆车时，TF++坚持其预设路径并发生碰撞，而DiffE2E通过暂时向前行驶，然后在车辆通过后安全合并，从而适应环境。这表明DiffE2E在动态交通中具有优越的多模态生成能力和实时适应性，有效避免了碰撞。

NAVSIM 中的实验结果

论文中基于NAVSIM的navtrain数据集构建了模型训练框架。与CARLA设置不同，作者在NAVSIM中采用VovNetV2-99作为特征提取骨干网络。使用预测驾驶员模型分数（PDMS）作为综合指标，通过加权整合关键驾驶维度：无责任碰撞（NC）、可行驶区域合规性（DAC）、时间到碰撞（TTC）、舒适性（C）和自身进度（EP）。

主要结果分析: 如表2所示，DiffE2E在NAVSIM基准测试中取得了优异的整体性能，PDMS得分为92.7——超过了Hydra-MDP++（91.0）、GoalFlow（90.3）和DiffusionDrive（88.1）。这突显了作者基于扩散的端到端方法在多维驾驶评估中的优势。在安全性和合规性方面，DiffE2E表现出色：无责任碰撞率为99.9（与Hydra-MDP++的98.6和GoalFlow的98.4相比），与Hydra-MDP++共享最高的可行驶区域合规性得分98.6。在时间到碰撞方面，DiffE2E以99.3领先，比Hydra-MDP++高出4.2分。在效率和舒适性方面，DiffE2E在自身进度上得分85.3（仅次于Hydra-MDP++的85.7），在驾驶舒适性上得分为99.9——接近SOTA，表明其轨迹平滑且类似人类驾驶。

定性结果分析: 为了验证DiffE2E的泛化能力和优越性，作者选择了两个具有代表性的复杂驾驶场景进行比较分析（图4）。绿色轨迹表示人类参考轨迹，红色轨迹表示计划轨迹。在右转交叉路口，基线方法经常偏离或越过边界，而DiffE2E能够准确地沿着车道边缘进行平滑转弯。在小交叉路口左转时，DiffusionDrive错误地解释了导航意图并计划了一条直线轨迹，Transfuser错误地选择了右车道，而只有DiffE2E准确地执行了左转指令，其轨迹几乎完全与参考轨迹匹配。这证明了DiffE2E在轨迹规划中的准确性和安全性。

消融实验

为了评估DiffE2E框架中每个组件的贡献，作者进行了一系列消融实验（见表3）。对于模型输入，作者分别消除了自我状态和导航指令。在这两种情况下，驾驶分数都有所下降，证实了自我状态对于准确规划的重要性以及导航输入对于意图理解的重要性。在架构方面，移除GRU模块导致分数显著下降，显示了其在复杂场景中提高预测的作用。在训练方面，作者比较了混合扩散、全扩散和显式策略范式，以及一阶段与两阶段策略。全扩散和显式策略训练都降低了性能，验证了混合方法的有效性。一阶段训练仅获得了18.2的驾驶分数——比两阶段低78%，导致车道保持能力差。这表明联合训练感知和规划存在挑战，而两阶段训练使每个模块都能得到有效优化。

此外，作者还对扩散模型中的去噪步数进行了消融研究（图5）。由于CARLA的随机性以及去噪步数的较小影响，作者使用了更稳定的NAVSIM Navtest基准。为了清晰起见，作者将92.705设置为零基线，并应用了1e4的缩放因子。结果显示，1步时PDMS最低（去噪不完全），2步时达到峰值，然后逐渐下降，表明此时已完全去噪。因此，在DiffE2E中使用2个去噪步来平衡性能和实时效率，这对于自动驾驶任务还是至关重要的。

结论

论文中提出了一个创新的端到端自动驾驶框架DiffE2E，该框架整合了基于Transformer的混合扩散-监督解码器，并引入了协作训练机制，有效地结合了扩散策略和监督策略的优势。作者设计了一种结构化的潜在空间建模方法：利用扩散模型对未来轨迹分布进行建模，捕捉行为的多样性和不确定性；同时引入显式监督对诸如速度和周围车辆动态等关键控制变量进行细粒度建模，增强对物理约束和环境变化的感知能力，从而提高预测的可控性和精确性。在CARLA闭环测试和NAVSIM非反应式模拟中，DiffE2E均取得了领先的性能，平衡了交通效率和安全性，同时展现了出色的泛化能力。

#Agentic Robot

吉大&哈佛最新！xx智能体中VLA模型的类脑框架

长时程机器人操作对自主系统提出了重大挑战，需要在复杂的序列任务中进行持续推理、精确执行和强大的错误恢复。当前方法，无论是基于静态规划还是端到端视觉运动策略，都存在错误累积问题，且在执行过程中缺乏有效的验证机制，限制了它们在现实场景中的可靠性。这里提出Agentic Robot，一个受大脑启发的框架，通过标准化动作流程（SAP）解决这些限制：SAP是一种新的协调协议，用于管理操作任务中组件之间的交互。受人类组织中标准化操作流程（SOP）的启发，SAP为规划、执行和验证阶段建立了结构化工作流程。架构包括三个专门组件：（1）一个大型推理模型，将高级指令分解为语义连贯的子目标；（2）一个视觉-语言-动作执行器，从实时视觉输入生成连续控制命令；（3）一个时间验证器，通过内省评估实现自主推进和错误恢复。这种SAP驱动的闭环设计支持动态自我验证，无需外部监督。在LIBERO基准测试中，Agentic Robot取得了最先进的性能，平均成功率为79.6%，在长时程任务上比SpatialVLA高6.1%，比OpenVLA高7.4%。这些结果表明，专门组件之间由SAP驱动的协调提高了序列操作的性能和可解释性，为可靠的自主系统提供了巨大潜力。

项目Github：https://agentic-robot.github.io。

相关工作

基础模型的最新进展显示出创建能够解释自然语言指令并执行复杂操作任务的xx智能体的巨大潜力。这些系统有效地弥合了高级推理和低级物理控制之间的差距。然而，现有的xx操作系统难以在需要长时间协调动作序列的长时程任务上实现可靠性能。现实场景如摆桌、杂货打包或家具组装，不仅需要复杂的推理和精确的运动控制，还需要在长时间任务执行过程中具备强大的错误检测和恢复机制。

通过对当前方法的广泛分析，我们发现了阻碍可靠长时程操作的基本限制。大多数现有方法分为两类，各有严重缺陷：静态遵循计划的智能体生成固定执行序列，缺乏适应性反馈；端到端视觉运动策略将观察直接映射到动作，缺乏中间推理。静态规划器遭受错误传播的影响：执行早期的小偏差会级联成灾难性故障。端到端策略缺乏内省机制，通常无法从意外状态中恢复，尤其是在遇到训练分布之外的场景时。

从人类组织中的标准化操作流程（SOP）中汲取灵感，我们观察到可靠的任务执行需要结构化的协调协议。在自然认知中，复杂行为源于专门的神经回路通过明确定义的交互模式工作：前额叶区域处理规划，运动皮层执行动作，感觉运动环路提供持续的验证反馈。类似地，在人类组织中，SOP建立了清晰的工作流程，最大限度地减少错误并实现不同角色之间的有效协作。这种生物学和组织学的智慧表明，机器人系统可以从管理组件交互的结构化协调协议中受益。

受这些见解的启发，这里设计了Agentic Robot，一个受大脑启发的框架，引入了标准化动作流程（SAP）：一种专门为xx操作任务设计的新型协调协议。与管理人类工作流程的SOP不同，SAP将自然认知周期编码为机器人系统的结构化智能体交互。SAP定义了完整的智能体循环，通过定义良好的接口和标准化的信息交换、进度监控和错误恢复协议，管理我们的三个专门组件（规划器、执行器和验证器）在任务执行过程中的协调。此外，Agentic Robot要求智能体在操作过程中保持结构化的交互协议。SAP确保任务分解、动作执行和进度验证遵循一致的流程，显著减少错误累积，同时实现从故障中的强大恢复。更具体地说，所有组件都遵循严格的SAP定义的工作流程，确保信息交接符合既定协议，消除困扰现有系统的通信故障。

主要贡献如下：

引入Agentic Robot，一个受大脑启发的xx操作智能体框架，融入了结构化协调协议。该框架高度模块化和可解释，具有定义良好的组件接口，使其成为开发可靠长时程操作系统的强大平台。
提出标准化动作流程（SAP），这是一种新型协调协议，管理机器人操作任务中的完整智能体循环。SAP编码了规划、执行和验证阶段之间的结构化交互，通过标准化工作流管理提高系统可靠性并减少错误传播。
在LIBERO基准测试中取得了最先进的性能，平均成功率为79.6%。实验结果表明，SAP驱动方法代表了可靠xx操作的有前途的框架，在具有挑战性的长时程任务上有特别强的改进。

Agentic Robot框架：受大脑启发的控制循环

框架概述

Agentic Robot是一个智能体框架，受生物认知和多智能体LLM系统的启发，将长时程操作重新定义为一个封闭的感知-推理-执行-验证循环。从管理有效人类工作流程的SOP中汲取灵感，这里提出了SAP，一种新型协调协议，在操作过程中构建组件交互。SAP建立了信息交换、进度监控和错误恢复的明确协议，实现复杂操作任务的稳健执行。

架构集成了三个专门组件：（1）基于LRM的规划器，将高级指令分解为结构化子目标；（2）基于VLA的执行器，从子目标和视觉输入生成连续控制动作；（3）基于VLM的验证器，进行自我评估以实现自主推进或恢复。每个组件都在SAP框架内运行，遵循标准化接口和通信协议，确保任务执行过程中的无缝协调。

如图1所示，智能体处理来自第三人称和第一人称相机的任务描述和RGB观察。规划器按照SAP规范生成子目标，VLA模型根据视觉输入将其转换为7自由度动作。同时，验证器监控时间帧缓冲区，根据SAP验证协议确定子目标完成情况，成功则进入下一个子目标，失败则触发标准化恢复动作。该架构实现了一系列智能体步骤，每个步骤在SAP框架内结合意图接地、视觉运动执行和基于感知的验证，无需外部监督即可实现执行校正。

规划器：用于子目标生成的LRM

规划器模块P是我们SAP框架内的高级推理组件。它按照标准化分解协议将任务指令T转换为结构化的可执行子目标序列：

其中表示初始视觉观察。每个子目标形成一个完整且受约束的指令，源自原子技能库，该库定义了标准化动作模板，如：

拿起[物体] | 将[物体]放在[位置]上 | 打开/关闭[设备]

这种受约束的方法确保与执行器的兼容性，同时保持执行管道的可解释性，遵循SAP结构化组件交互的原则。

这里使用最先进的大型多模态推理模型（如GPT4o）实现规划器，该模型处理指令T和可选的图像以进行视觉接地。符合SAP的提示架构包括三个结构化组件：（1）任务前言，解释规划器在框架中的角色；（2）完整的原子技能库，指定允许的动作类型；（3）精心选择的少样本示例，演示正确的子目标分解。这些示例指导模型建立适当的任务边界，解决歧义，并将复杂指令分解为2-5个原子步骤。通过广泛验证，我们确定具有1-2个语义单元（如动词+对象或动词+对象+位置）的子目标在SAP框架内实现了清晰度和可执行性之间的最佳平衡。

VLA执行器：反应式视觉运动策略

执行器模块E是核心的视觉运动接口，根据SAP执行协议将每个子目标和相关的视觉观察转换为连续的低级控制信号：

其中表示机器人的笛卡尔位移和夹持器配置。前六个维度编码平移和旋转向量，最后一个组件表示二进制夹持器状态。

利用OpenVLA，在自然语言子目标和视觉观察之间建立直接连接。该架构包含一个大型语言模型主干和一个视觉Transformer（ViT），用于处理多模态输入并生成适当的电机命令。每个子目标遵循我们原子技能库中概述的结构化格式，使VLA模型能够通过理解语言指令和视觉场景内容来系统地生成动作。这种结构化方法增强了跨操作场景的兼容性和可解释性，同时将动作空间限制为物理上可行的轨迹。

尽管执行器采用无状态设计，但它通过SAP验证循环集成了强大的错误处理能力。当执行失败发生时，标准化验证机制通过视觉评估检测问题，并按照SAP协议触发特定的恢复动作。如果多次恢复尝试失败，框架会将任务标记为失败并停止执行，以防止不安全行为。这种闭环错误检测代表了对开环方法的重大改进，即使在单个子目标执行遇到失败时，也能通过复杂的操作序列实现自主推进。

验证器：基于感知的子目标评估和恢复

验证器模块V通过视觉分析评估每个子目标的成功与否，在SAP框架内提供关键反馈。对于每个验证步骤，它遵循两阶段评估协议产生二进制响应：

是或否其中是来自第三人称和腕部安装视图的最近图像对的滑动缓冲区。这个时间缓冲区捕获视觉动态，如目标位移或接触转换，通常(K=2)，帧间隔为5。

采用Qwen2.5-VL-3B-Instruct作为验证器模型，评估子目标是否完成。验证提示遵循SAP的结构化格式：“基于图像序列，机器人是否成功完成[子目标]？”该模型在注释三元组的数据集上使用LoRA进行微调，其中是否。

当初始响应为否时，验证器执行二次检查以确定机器人是否卡住：

卡住或仍在尝试

其中是一个诊断模块，检测诸如手臂静止、抓取失败或振荡行为等情况。如果卡住，则触发恢复动作：

如抬起夹持器或重新定位手腕。然后系统重新执行，并在下一个间隔恢复相同的两阶段验证过程。经过次不成功的恢复尝试后，任务被标记为失败。

为了优化响应性和效率，每20帧（即）执行一次验证，实现接近最佳的准确性（仅比10帧间隔下降1.2%），同时将计算负载减少48%。与单遍目标检查方法相比，我们的两级验证器允许执行中期校正和细粒度故障定位。

SAP：协调智能体控制的标准化动作流程

SAP通过构建感知、规划、执行和验证之间的交互，在Agentic Robot框架内协调闭环执行。SAP支持子目标级反馈和自适应恢复，将复杂的长时程操作转换为有界的智能体步骤。时间t的每个SAP周期将智能体步骤定义为：

其中表示第一人称和第三人称视图，是当前子目标，是采取的动作，是否是验证结果。SAP执行遵循四个相互依赖的阶段：

多模态感知。在每个时间步，智能体收集：

提供工作空间的双视角观察。

反应式执行。执行器将子目标转换为低级控制信号：

其中将语义目标和当前视觉映射到7自由度动作。

时间验证。每帧（通常为20），验证器执行两阶段评估：如果是，智能体进入下一个子目标。如果不是，且卡住，则触发恢复动作。

目标恢复。需要恢复时，调用特定的校正策略：然后重新执行并重复验证。经过次失败的恢复尝试后，任务安全终止。

SAP执行由异步有限状态机管理，具有特定于组件的频率：执行器以10 Hz（）运行，验证器以0.5 Hz（）运行。通过使用模块化边界和分层反馈强制执行结构化控制周期，SAP提高了智能体的可靠性和可解释性。它支持现场校正，隔离错误，并确保安全恢复：解决了动态和不确定操作环境中开环或端到端系统的核心限制。

实验分析

讨论与局限性

作为鲁棒性机制的验证

框架的一个核心贡献是引入视觉验证作为子目标推进的控制信号。验证器充当语义守门人，决定是继续、重试还是终止，从而实现子目标级别的错误检测和纠正，而无需访问真实状态信息。实验结果证明了这种方法在缓解错误累积方面的有效性，尤其是在长周期任务中，早期的错误可能会波及后续的动作序列。恢复行为的加入进一步增强了系统在环境不确定性和部分可观测性下的弹性。

实际部署挑战

尽管我们的结果在高保真模拟环境中得到了验证，但将Agentic Robot转移到物理平台仍面临若干挑战。这些挑战包括处理RGB输入中的传感器噪声、适应现实世界的光照变化和遮挡，以及补偿执行延迟。此外，验证器对视觉领域偏移的鲁棒性需要进行广泛评估。未来的工作将纳入领域自适应和仿真到现实的迁移技术，特别关注验证器和执行器组件的真实图像微调，以应对这些挑战。

自适应验证调度

目前，验证是按固定间隔（每20帧）进行的，与任务复杂性、执行速度或物体动态无关。尽管在评估中有效，但这种启发式方法在计算效率上可能不是最优的。我们建议探索自适应验证策略，这些策略可以基于运动强度、子目标类型或LLM的不确定性量化，利用置信度感知调度。这种方法将优化计算资源分配，同时保持任务安全性和正确性保证。

参考

[1] Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents

#自动驾驶前沿论文 | 扩散模型、Gaussian、VLM等~

Diffusion-Based Generative Models

论文标题：Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving
论文链接：https://arxiv.org/abs/2505.23115

核心创新点：

1. 将3D占用预测重构为生成建模任务

首次提出通过扩散模型（Diffusion Models）对3D占用网格进行生成建模，突破传统判别方法（如端到端映射图像到占用网格）的局限性。
核心贡献：

通过建模3D场景先验（3D Scene Prior）和联合语义关系，提升预测的物理一致性与细节完整性（如遮挡区域补全）。
利用扩散模型的多模态分布建模能力（Multi-Modal Occupancy Distributions），生成符合视觉观测的多样化合理样本，支持下游规划任务的多场景推演。

2. 基于离散扩散过程的条件采样框架

提出针对离散分类变量（Discrete Categorical Variables）的扩散建模方法，结合鸟瞰图（BEV）特征作为条件输入，优化生成过程。
关键技术：

离散扩散过程：采用均匀转移矩阵（Uniform Transition Matrix）对占用网格进行噪声扰动，通过可学习嵌入层将离散标签映射到连续特征空间。
无分类器引导（Classifier-Free Guidance, CFG）：通过调整条件（ℓ_c）与无条件（ℓ_u）模型的logits加权（ℓ = (s+1)ℓ_c − sℓ_u），增强视觉条件对生成过程的控制力。
端到端训练：以BEV模型的最终分类器前表示（C-R）为条件，联合优化视觉编码器与扩散模型参数。

3. 噪声鲁棒性与动态推理机制

噪声鲁棒性：扩散模型的去噪能力天然适配占用标注中的传感器噪声与局部观测问题，显著优于判别方法。
动态推理（Dynamic Inference Steps）：通过控制采样步数（如10-15步），在推理效率与预测质量间灵活平衡（见表IX性能对比）。

4. 对下游规划任务的赋能验证

首次将占用预测的评估视角扩展至规划任务效能（Planning Task Effectiveness），证明生成模型输出的占用场景更符合实际决策需求。
实验验证：

在UniAD框架中替换BEV特征为生成的占用网格，显著降低碰撞率（Collision Rate）与轨迹L2误差（表VIII）。
无需可见掩码（Visible Mask）训练时，生成模型性能超越基于真实标注的判别方法，体现其对非可见区域的合理推断能力。

RadarSplat

论文标题：RadarSplat: Radar Gaussian Splatting for High-Fidelity Data Synthesis and 3D Reconstruction of Autonomous Driving Scenes
论文链接：https://arxiv.org/abs/2506.01379
代码：https://umautobots.github.io/radarsplat

核心创新点：

1. 首例雷达驱动的3D高斯溅射框架

首次将3D Gaussian Splatting (GS) 引入自动驾驶雷达场景，构建显式高斯场景表示（公式9）。通过雷达物理约束的渲染方程（公式11）建模雷达波特性，解决传统NeRF方法（如Radar Fields）在噪声场景下的失效问题。

2. 雷达噪声建模与解耦

噪声检测：提出基于快速傅里叶变换（FFT）的噪声分类算法（公式2-3），精准识别多径效应（Multipath Effects）、接收机饱和（Receiver Saturation）和散斑噪声（Speckle Noise）（图3）。
概率解耦：在功率反射率中引入噪声概率项（公式10），解耦目标占据概率与噪声，支持雷达逆渲染（Radar Inverse Rendering） 分离真实目标/噪声/多径（图9）。

3. 高保真雷达渲染管线

双增益投影：

俯仰投影（Elevation Projection）：结合雷达俯仰天线增益累积高斯权重（公式11）。
方位投影（Azimuth Projection）：通过方位天线增益的1D卷积实现波束成形（图20）。

4. 去噪与占据图监督

鲁棒去噪算法：基于噪声检测结果生成无噪掩膜，通过高斯平滑与衰减区域搜索构建初始占据图（Occupancy Map）（图5-6，算法3.3）。
占据图监督损失：以去噪后的占据图作为监督信号，通过损失项提升几何重建精度（公式12）。

DriveMind

论文标题：DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving
论文链接：https://arxiv.org/abs/2506.00819

核心创新点：

1. 动态双VLM架构与对比语义奖励

创新点：提出动态双VLM架构，结合静态对比VLM编码器与新颖性触发的VLM编码器-解码器，解决传统固定提示的语义僵化问题。

静态VLM ：采用冻结的CLIP模型（ViT-bigG-14）对鸟瞰图（BEV）帧进行嵌入，通过固定“当前状态”（present）与“理想状态”（ideal）文本提示，生成对比语义奖励（Contrastive Semantic Reward）
动态VLM ：基于SmolVLM-256M构建编码器-解码器，通过链式思维蒸馏（Chain-of-Thought Distillation）微调，仅在语义嵌入漂移超过阈值时触发，生成自适应的“当前/理想”提示（如风险评估与路径规划），避免奖励黑客（Reward Hacking）。

2. 自调整语义奖励框架

创新点：融合多模态奖励机制，实现可解释、安全的决策：

自适应理想状态对比奖励（AICR）：

动态调整正负提示权重（α+β=1），平衡安全探索与危险规避。

层次化车辆状态融合奖励（HVFR）：

通过乘性融合归一化运动学指标（速度、车道居中、航向对齐、横向稳定性），强制执行硬性安全约束（任一指标违规即惩罚）。

预测对比远见奖励（PCFM）：

基于紧凑世界模型（Compact World Model）预测下一语义嵌入，引导长期信用分配与前瞻性规划。

3. 零样本跨域泛化能力

创新点：在真实行车记录数据（BDD100K）上验证语义奖励的零样本迁移性：

自适应理想状态对比奖励（AICR）分布偏移极小（Wasserstein距离=0.028，K-S统计量=0.105），表明模型在未见过的真实场景中仍能保持鲁棒的语义对齐。
无需微调即可适应真实世界的光照、天气变化及罕见事件（如道路损坏）。

GaussianFusion

论文标题：GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
论文链接：https://arxiv.org/abs/2506.00034
代码：https://github.com/Say2L/GaussianFusion

核心创新点：

1. 基于2D高斯表示的多传感器融合框架

首次将2D高斯分布（Gaussian Splatting）引入端到端自动驾驶的多传感器融合（Multi-Sensor Fusion），通过物理属性（均值、尺度、旋转）和隐/显式特征建模交通场景。相比传统3D高斯表示，仅需BEV语义图监督，无需密集3D标注，显著提升计算效率。

2. 双分支特征融合架构

显式分支（Explicit Branch）：通过几何对齐的跨模态注意力（Cross-Attention）聚合多传感器局部特征，用于更新高斯的物理属性（如位置、语义），实现交通场景的显式重建（Scene Reconstruction）。
隐式分支（Implicit Branch）：通过全局跨模态交互提取互补特征，直接服务于轨迹规划，解耦感知与规划任务的耦合性。

3. 级联规划头（Cascade Planning Head）

提出分层高斯查询机制，通过迭代优化锚定轨迹（Anchor Trajectories）：

利用显式特征构建场景拓扑，隐式特征捕捉全局规划线索；
通过交叉注意力（Cross-Attention）动态聚合高斯特征，生成鲁棒轨迹。

该设计显著提升复杂场景（如无保护左转、密集交通）的轨迹预测精度。

4. 稀疏高斯表示的效率与可解释性优势

相比传统BEV融合的密集栅格化表示，高斯的空间稀疏性（Sparsity）减少冗余计算，缓解内存瓶颈；
物理属性（如语义、位置）提供直观的场景解释，增强模型透明度，避免黑箱式注意力机制的模糊性。

5. 端到端验证与性能突破

在NAVSIM和Bench2Drive基准测试中，GaussianFusion以ResNet-34为骨干网络，分别取得85.0 EPDMS和79.4 DS的SOTA性能，验证了其在开放环路（Open-Loop）与闭合环路（Closed-Loop）场景下的鲁棒性与泛化能力。

#ReasonPlan

闭环规划暴力提升19%！中科院ReasonPlan：闭环自动驾驶的统一场景预测与决策推理~

中科院团队的工作，提出了名为ReasonPlan的算法，在Bench2Drive上取得了还不错的效果。主要有两点值得借鉴：自监督的下一场景预测任务和监督决策思维链过程，同时输出结果具备一定的空间理解能力。

由于多模态大语言模型（MLLMs）具有强大的视觉-语言推理和泛化能力，在端到端（E2E）自动驾驶领域引起了广泛关注。然而它们在闭环系统中的应用仍鲜有探索，并且当前基于MLLM的方法尚未显示出比主流的E2E模仿学习方法明显优越。在这项工作中，我们提出了ReasonPlan，这是一种新颖的MLLM微调框架，专为通过整体推理进行闭环驾驶而设计，结合了自监督的下一场景预测任务和监督决策思维链过程。这种双重机制鼓励模型将视觉表示与可操作的驾驶上下文对齐，同时促进可解释且因果关系明确的决策制定。我们整理了一个面向规划的决策推理数据集，即PDR，其中包含21万个多样且高质量的样本。我们的方法在Bench2Drive基准测试中以19% L2误差和16.1驾驶分数的优势超越了主流的E2E模仿学习方法。此外，ReasonPlan在未见过的DOS基准测试中表现出强大的零样本泛化能力，突显了其处理零样本边缘情况的适应性。

论文链接：https://arxiv.org/abs/2505.20024
代码链接：https://github.com/Liuxueyi/ReasonPlan

近年来，端到端（E2E）自动驾驶展现了一种可扩展的、数据驱动的范式，吸引了越来越多的关注。尽管其在简化驾驶流程方面具有优势，但大多数现有的 E2E 方法依赖于模仿学习，并且在复杂的闭环环境中表现出局限性。具体而言，它们在交互案例中经常出现因果混淆，并且难以推广到分布外场景。多模态大语言模型（MLLMs）的最新进展实现了视觉-语言推理和零样本泛化能力，为 E2E 自动驾驶提供了新的机遇。

最近的研究探索了双系统框架、用于增强 E2E 驾驶的 LLM 蒸馏以及以文本形式进行轨迹预测。尽管这些方法显示出一定的前景，但它们主要在开环设置下运行，或在闭环评估中表现不佳。这种局限性源于它们无法在需要动态适应环境变化的闭环场景中进行情境感知推理和稳健规划。我们总结出三个关键挑战限制了 MLLMs 推理能力的充分利用：(1) 仅使用单模态文本监督。现有方法使用仅文本来监督感知和决策过程，导致场景理解不足和情境意识有限。(2) 没有明确的推理过程。先前的工作利用多轮问答微调 LLM 来增强指令跟随能力，但未能充分发挥模型的链式推理（CoT）能力。(3) 缺乏面向规划的高质量推理数据集。因此，MLLM 在 E2E 闭环规划中的潜力仍未被充分挖掘，当前基于 MLLM 的方法尚未在闭环基准测试中显示出比模仿学习技术明显的优势。

为了解决上述问题，我们从模型架构和训练数据集两方面进行了探索。从模型角度来看，我们提出了一种新颖的 MLLM 微调框架，即 ReasonPlan，该框架能够有效增强复杂闭环场景中的整体推理能力。ReasonPlan 包括一个自监督的下一场景预测（NSP）任务和一个受监督的决策链式推理（DeCoT）过程。具体来说，受到场景理解和生成建模最新进展的启发，我们引入了一个时间上的 NSP 任务，根据自我上下文条件来预测未来的视觉观察结果。这一目标约束了潜在空间中的图像标记表示，丰富了模型对驾驶场景的上下文理解。为了进一步利用在闭环和分布外评估中的推理和泛化能力，我们在 DeCoT 过程中引入了明确的文本监督。

从数据集角度来看，我们构建了一个大规模的、针对闭环规划的指令数据集，称为 PDR，其中包含 203,353 个训练样本和 11,047 个测试样本。通过自动化标注流水线，PDR 捕获了 Bench2Drive上训练场景中的完整决策推理过程，包括以下阶段：场景理解、交通标志识别、风险评估的关键对象识别和元动作。为确保数据集的质量和可靠性，所有推理步骤都经过彻底的人工验证。该数据集将公开发布，作为学习结构化且因果关系明确的决策推理的基础。

ReasonPlan 在 Bench2Drive 上取得了 64.01 的驾驶分数，并将 L2 误差降低了 16.44%，优于之前的最先进 E2E 模仿学习模型。此外，它在 DOS 上展示了强大的零样本泛化能力，突显了其在决策关键边缘情况下的适应性。

我们的主要贡献如下：

提出了 ReasonPlan，这是一种用于复杂闭环驾驶场景的新颖 MLLM 微调框架。结合自监督 NSP 和受监督 DeCoT，有效地耦合了视觉和语言模态，使全面的决策推理过程成为可能。
通过自动化标注流水线构建了大规模的决策推理数据集 PDR，包含 210k 多样且高质量的样本。
如图 1 所示，ReasonPlan 在 Bench2Drive 的开环和闭环设置中均表现出色，并在 DOS 场景中展示了强大的零样本泛化能力。

相关工作回顾

端到端自动驾驶

当前主流的端到端（E2E）自动驾驶方法直接基于模仿学习（IL）将原始传感器输入映射为轨迹。代表性的工作如 UniAD和 VAD将感知、预测和规划统一到一个框架中，实现了整个流程的联合优化。为了应对规划中的不确定性，SparseDrive在多模态规划框架中采用稀疏表示，而 UncAD则整合了具有不确定意识的在线地图。VADv2对动作上的概率分布进行建模，通过动作采样增强了鲁棒性。然而，这些方法在开环设置下进行评估时，模型容易过拟合特定的自车状态。DiffusionDrive和 GoalFlow探索了一种新颖的生成范式，利用扩散模型在 Navsim中预测多样化的未来轨迹。其他一些研究在 CARLA中采用了闭环评估来评估驾驶鲁棒性。然而，这些基于 IL 的 E2E 方法仍然存在显著的因果混淆和有限的泛化能力。为此，我们提出了一种基于 MLLM 的 E2E 微调框架，旨在利用其预训练的世界知识和推理能力来解决闭环驾驶中的挑战。

自动驾驶中的多模态大语言模型

MLLMs 在跨语言、视觉和机器人领域的场景理解和高层推理方面表现出色，促使它们被集成到自动驾驶系统中。最近的研究通过双系统架构和知识蒸馏将 MLLMs 引入 E2E 框架。DriveVLM和 Senna利用 MLLMs 生成高层次的驾驶意图，随后由低级策略模块进一步细化以生成最终轨迹。VLP和 DiMA将 E2E 系统的关键组件与 MLLMs 对齐，将抽象推理能力提炼成轻量级的规划头。其他方法采用简单的问答微调来生成文本轨迹。例如，Reason2Drive通过 CoT 数据集和结构化标记化增强场景理解，而 TOKEN通过结合对象级别的感知和基于 LLM 的推理来改进长尾规划。尽管结果令人鼓舞，但这些方法仅限于开环评估。虽然有些方法探索了闭环设置，但它们通常依赖于简化的基准测试，如 Town05Long或 HighwayEnv。LMDrive引入了一种基于语言的闭环框架用于自动驾驶，缺乏结构化的推理任务。SimLingo基于 CarLLaVA引入了一个动作梦想任务，以连接语言和控制动作空间。为了充分利用 MLLMs 在复杂交互场景中的推理潜力，我们提出了一种统一的框架，紧密集成视觉和文本模态，使闭环场景中的综合决策推理和零样本泛化成为可能。

方法详解

概述

ReasonPlan的整体流程如图2所示。具体来说，ReasonPlan包含两个组件：(a) 自监督的下一场景预测任务，旨在增强场景表示和理解；(b) 受监督的决策链式推理过程，用于推理和可解释的规划。此外(c) 该框架分为两个阶段进行优化。

自监督的下一场景预测（NSP）

为了增强场景理解并有效对齐视觉特征空间与语言语义空间，我们引入了一个时间上的自监督NSP任务，如图3所示。我们的模型输入包括多视角RGB图像，记为，其中是视角数量，和分别是每个图像的宽度和高度。我们首先将所有视角的图像调整为网格形式。此外，我们采用了一种AnyRes的分区策略，将前视图划分为四个空间网格，以提高模型的效率和捕捉细粒度空间细节的能力。每个网格由视觉编码器SigLIP处理，生成一个视觉特征张量，其中和分别表示每个网格的视觉标记数量和视觉嵌入维度。为了对齐这些特征与文本空间，我们应用了一个两层MLP投影模块，将映射到，其中表示语言嵌入维度。这一过程可以正式写为：

考虑到车辆动力学和高层驾驶意图的关键作用，我们引入了一个上下文编码器，这是一个两层MLP模块，将自动驾驶车辆当前的速度、加速度和导航命令嵌入到一个上下文表示中：

这个编码的上下文随后与视觉特征融合，以指导未来场景表示的预测。在LLM之后，我们可以估计潜在的视觉嵌入 $ \hat{H}{vt+3} 。对于自监督标签，我们利用秒时间范围内的多视角图像 X{vt+3} 作为目标未来帧。这些图像经过相同的编码器和投影处理后，生成潜在的视觉表示 H_{vt+3} $ 作为自监督信号。在自动驾驶中，前视图像包含了最具有语义信息的内容，捕捉到了轨迹规划的关键线索。我们在附录D中的消融研究还表明，对于NSP任务，训练前视图的效果与全视角设置相当。为了提高训练效率并消除冗余计算，我们在后续实验中统一采用前视NSP。虽然MSE损失仅在前视图上计算，但完整的图像特征被保留为条件，为后续的推理过程提供全面的上下文信息。

我们使用均方误差（MSE）损失在潜在特征空间中强制预测和未来视觉表示之间的一致性。通过基于动态和上下文线索的条件，我们的模型预期未来的感知状态与计划动作一致。通过时间上的自监督NSP任务，它整合了自我运动和场景上下文，增强了LLM的空间意识，实现了全面的场景理解和情境感知预测。

决策链式推理（DeCoT）

在NSP任务之后，文本空间中的DeCoT过程在我们的框架中至关重要。ReasonPlan利用LLM的预训练知识，结合视觉标记和文本指令，生成可解释的决策过程，并以文本形式生成可执行的轨迹。

如图2所示，系统提示和导航指令首先被标记化为标记ID，然后使用文本编码器编码为文本嵌入，其中和分别表示文本标记的数量和文本空间的维度。为了实现有效的多模态对齐，我们在标记器词汇表中引入了一个特殊的<image>标记。为了保持空间意识并允许模型区分不同的视角，我们明确地用其对应的相机视角注释每个标记（例如，CAM_FRONT:<image>, ..., CAM_BACK:<image>）。这些<image>标记在图像编码器处理后动态替换为相应的视觉嵌入，从而无缝集成文本和视觉模态。为了更好地支持NSP和DeCoT的实现，我们在之外引入了六个额外的特殊标记。LLM的输入和目标序列结构如下：

用户:{velocity}{acceleration}{navigation command}{image tokens} t{prompt}.
助手: [BOS][BOI]{image tokens} t+3[EOI][BOT]{reasoning steps}[EOT]
{generated trajectory}[EOS].

其中[BOS]和[EOS]是文本标记器中的原始特殊标记，[BOI]和[EOI]标记图像标记的开始和结束。同样，[BOT]和[EOT]表示推理过程的开始和结束。

为了执行类人的推理，我们在语言模型的中间推理步骤上引入了显式的监督，从而增强其处理复杂决策任务的能力。结合视觉和文本模态，ReasonPlan在最终规划之前执行一个面向规划的思考过程，包括场景理解、交通标志识别、关键对象识别以进行风险评估和元动作。对于长度为的序列，我们计算目标答案的概率和交叉熵（CE）损失：

其中和分别是当前预测标记之前所有轮次的指令和答案标记。

与传统的多轮问答范式不同，ReasonPlan在一次前向传递中执行多步推理，有效地利用了LLM的常识推理能力来处理自动驾驶任务。

训练策略

最终的训练目标被公式化为自监督图像预测损失和语言推理损失的加权组合：

其中和分别是视觉空间MSE损失和文本空间CE损失的权重。整体框架在两个阶段中进行优化，如图2(c)所示。在第一阶段，我们使用非决策监督来训练投影模块和上下文编码器，以对齐视觉特征空间和文本语义空间，同时从自动驾驶车辆状态和导航命令中提取上下文线索。在第二阶段，我们使用收集的PDM数据集共同微调投影模块、上下文编码器和LLM主干，将预训练的常识推理能力转移到复杂的驾驶场景中。

PDR：面向规划的决策推理数据集

尽管已有多种问答（QA）数据集被引入自动驾驶领域，但它们主要针对场景理解和开环评估设计，无法有效评估闭环驾驶中的实际驾驶性能。为弥补这一差距，我们构建了一个大规模、高质量的决策推理数据集——PDR（Planning-oriented Decision Reasoning Dataset），该数据集专注于轨迹规划，包含21万个多样且高质量的样本。我们开发了一条专为复杂闭环决策场景设计的自动化标注流水线，旨在利用大语言模型（LLM）在动态驾驶环境中的推理和泛化能力。

为构建一个可靠的推理数据集，我们将Bench2Drive [26] 提供的真实标注信息扩展为结构化的推理标签。每个推理轨迹都经过彻底的人工验证，以确保其一致性与可解释性。如图4所示，推理过程包括以下几个阶段：

场景理解：确定自车可通过左变道到达的车道，车道方向与自车一致；同时注意后方车辆，当前无右变道可能。
交通标志识别：识别到交通警告标志，并据此调整行驶策略。
风险评估关键对象识别：识别距离自车周围9.96米的静态锥形筒，预判其对后续移动的影响。
元动作规划：基于上述信息，决定加速并左变道。

实验结果分析基准测试与评估指标

我们使用 Bench2Drive来评估 ReasonPlan 的闭环驾驶性能，该基准基于 Carla 领导榜 v2 提供了具有挑战性的交互式场景。为了进一步评估其推理能力，我们还在 DriveOcclusionSim (DOS) 上进行了零样本评估，这是一套复杂的场景，要求模型从动态驾驶环境中推断全局上下文。对于消融研究，由于评估 Bench2Drive 的 220 条路线可能需要几天时间，我们使用 Dev10进行快速验证。

实现细节：我们的框架处理六个环绕视图图像，这些图像的原始分辨率为 1600×900，并通过 AnyRes 策略调整大小并编码以生成十个尺寸为 384×384 的空间网格。我们的框架采用 SigLIP作为视觉编码器。对于语言模型，我们采用 Qwen-0.5B，这是一种轻量级但功能强大的大语言模型（LLM），在效率和推理能力之间取得了平衡。学习率固定为 5e-5，Limage 和 Ltext 的权重均设置为 1.0。更多细节见附录 C。

评估指标：对于开环情况，我们报告预测轨迹与专家轨迹之间的 L2 距离。对于闭环情况，我们采用指标：(1) 路径完成率 (RC)：完成路径的百分比；(2) 违规得分 (IS)：交通违规处罚得分；(3) 驾驶得分 (DS)：RC × IS（总体性能指标）；(4) 成功率 (SR)：无违规且及时完成的片段百分比；(5) 效率 (Effi)：相对于周围车辆平均速度的自车速度；(6) 舒适度 (Comf)：符合运动平滑阈值的程度。

与SOTA对比

如表 1 所示，ReasonPlan 在开环性能上表现最佳，将 L2 误差降低至 0.61，展示了优越的未来轨迹预测准确性。此外，在闭环评估中，ReasonPlan 相较于使用特权专家特征蒸馏的 SOTA 方法 DriveAdapter表现出了竞争力。具体而言，它实现了 64.01 的 DS，显著优于非蒸馏的基于 IL 的 SOTA 方法 MomAD，提升了 16.1% (+33.6%)。此外，ReasonPlan 相较于 MomAD提高了 16.44% (+90.78%) 的成功率。ReasonPlan 在所有评估方法中也达到了最高的效率得分180.64，显示了一种有效且积极的驾驶策略。25.63的舒适度得分反映了轨迹敏捷性和平滑性之间的常见权衡。尽管如此，舒适度边际仍在可接受范围内，可以通过后平滑或低级控制器调优进一步优化。

表 1 还展示了 ReasonPlan 在多种驾驶场景中的多能力评估性能。ReasonPlan 的平均能力得分为 36.66%，显著优于所有未利用任何专家特征蒸馏的 E2E 基线方法。这些结果突显了模型在不同驾驶意图上的强大推理能力，并验证了其在复杂多意图场景下的鲁棒性。

在复杂推理场景中的强零样本泛化能力：为了评估 ReasonPlan 的分布外泛化能力，我们在 DOS 基准上进行了零样本闭环评估，如表 2 所示。值得注意的是，没有方法是在 DOS 上训练的，确保了一个纯粹的零样本设置。ReasonPlan 在这些条件下表现出一致且优越的性能，平均 DS 达到 78.02。这些结果突显了 ReasonPlan 强大的泛化能力，由其整体推理管道驱动，即使在未见过的场景中也能实现稳健安全的决策。

定性结果

图 5 展示了 ReasonPlan 在两个代表性闭环评估场景中的定性结果。图中展示了 DeCoT 推理过程和相应的预测轨迹。与基线方法相比，ReasonPlan 在导航复杂交叉口和处理未见过的场景方面表现出色。

消融研究与分析

本节通过详细的消融研究，验证了我们提出的方法和数据集的有效性，包括模型和推理步骤的消融。

NSP 有效地建模动态场景转换并增强空间规划：NSP 模块通过对图像标记施加密集监督来引入细粒度的视觉理解。通过时间预测任务，它促进了改进的 3D 空间推理并增强了下游规划性能（表 3a ID 2）。然而，如果没有对决策进行明确的推理，仅 NSP 无法确保交通合规，导致较低的 IS。

DeCoT 通过结构化推理持续促进规划：DeCoT 将复杂的决策分解为可解释的推理步骤，并通过直接监督提高模型处理复杂场景的能力（表 3a ID 3）。

NSP 和 DeCoT 是互补且协同的：整合 NSP 和 DeCoT 可实现最佳的整体性能（表 3a ID 4），因为 NSP 提供丰富的视觉背景用于规划，而 DeCoT 通过结构化推理调节驾驶行为。这些组件使 ReasonPlan 能够在复杂场景中执行统一、可解释且有效的端到端规划。

结构化和完整的推理步骤带来了最佳的驾驶性能：如表 3b 所示，从完整推理管道中移除任何单一组件都会降低模型处理复杂场景的能力。特别是，省略代表驾驶决策的元动作步骤会导致 DS 显著下降。这些结果强调了细粒度推理在安全稳健决策中的重要性。此外，这些发现突显了由我们自动化标注流水线生成的 PDR 数据集的质量和有效性。

结论

在本研究中，我们提出了 ReasonPlan，这是一种新颖的微调框架，旨在将多模态大语言模型（MLLMs）应用于复杂的闭环场景。ReasonPlan 引入了一种时间上的自监督下一场景预测任务，并对决策链式思维过程施加了显式的监督，从而实现了视觉和文本模态的统一整合，以支持可解释的规划。通过在 Bench2Drive 和 DOS 上的全面评估，ReasonPlan 在开环和闭环设置下均表现出色。值得注意的是，它在未见过的任务上展示了强大的零样本泛化能力，突出了其在现实世界部署中的稳健性和潜力。我们的结果表明，基于 MLLM 的框架在弥合高层推理与低层规划之间的差距方面具有巨大前景，为更具认知性和通用性的自动驾驶系统铺平了道路。

局限性

首先，尽管 ReasonPlan 利用强大的推理能力解决了复杂推理和分布外场景中的挑战，但其依赖于 MLLMs，这带来了不可忽视的推理延迟。虽然目前 0.5B 规模的 LLM 在实时部署上是可以接受的，但更大的规模如 7B 仍难以实现实时部署。然而，新兴的潜在空间推理技术为提高框架的效率和响应能力提供了有希望的方向。此外，像 o1 或 DeepSeek-R1 这样的大型推理模型是否能为闭环自动驾驶提供更好的推理能力，值得进一步分析。其次，ReasonPlan 使用一种整体推理框架，其中动作表示为单模态文本输出。一个有前途的未来方向是解耦推理和动作生成——仅由 LLM 负责决策，而使用专门的生成模型来合成多模态轨迹。这种模块化设计受到机器人领域最近成功的启发，可能会进一步增强灵活性和可扩展性。第三，类似于大多数端到端框架，ReasonPlan 依赖于离线数据集上的监督微调，这限制了其从交互反馈中学习的能力，并可能导致偶尔发生碰撞（见附录 E）。通过强化学习进行后训练或集成环境感知适应机制可能是解决这一局限性的未来方向。最后但同样重要的是，尚不清楚 MLLMs 是否是端到端自动驾驶最合适的基模型，并且能够很好地对齐视觉语言和动作。自动驾驶的 VLA 基模型应进一步研究。

#小鹏汽车自动驾驶技术分析

分析一个垃圾的技术了

小鹏汽车自成立之初便将智能驾驶作为与电动化并驾齐驱的核心战略，不仅在产品设计层面强调“智驾”标签，更在技术研发投入方面持续加大力度。截至2024年底，公司累计研发支出已突破300亿元人民币，这一规模在造车新势力中也名列前茅。与多数车企选择依赖外部供应的做法不同，小鹏坚持“底层自研、全链自主”，从传感器硬件到车端算力、从大模型算法到云端数据平台，构建了闭环式研发与迭代体系。在创始人与高管团队的长期战略定力下，小鹏在AI智能驾驶领域实现了从跟随到并跑、再到局部领先的跨越，为批量化、多品类车型的智能驾驶落地提供了坚实技术保障。

在技术架构层面，小鹏基于自身十年造车经验和技术沉淀，提出了SEPA 2.0“扶摇”架构。这一架构的核心在于平台化底座，并非单纯的车身底盘平台，而是覆盖电子电气、三电系统与硬件一体化的全方位技术平台。

X-EEA电子电气架构实现云端至车端的算力-算法-数据闭环。云端Foundation Model参数规模已扩展至72B，车端大模型参数则达到数十亿，并通过蒸馏技术将大模型压缩至适合500–1000TOPS算力的车端硬件。在三电系统方面，小鹏全域800V高压快充＋X-Power电驱集成解决了充电效率、电耗效率以及低温续航等一系列技术难题；此外，包含前后一体化压铸和CIB电池车身一体化的硬件一体化技术，不仅有效降低了零部件数量和制造成本，更大幅优化了车身空间利用率和结构刚度，为整车轻量化和多品类共线生产提供了有力支撑。

X-EEA电子电气架构

在感知层面，小鹏抛弃了传统依赖大规模激光雷达和高精地图的设计思路，率先在十周年发布会上推出AI鹰眼视觉方案。该方案基于全球首创的Lofic架构，前视与后视摄像头像素升级至800万，环视及侧视摄像头提升至300万，能够在弱光、逆光及大光差环境中保持高精度感知。相比上一代双激光雷达方案，AI鹰眼视觉方案在实时感知距离上提升25%，识别速度加快40%，系统端到端时延减少100ms，算力释放率提升20%，视觉数据无需中间转化即可直接进入神经网络模型，显著提升了系统响应速度和成本效率。从2024年Q4开始，AI鹰眼视觉方案首发搭载于P7+车型，计划后续覆盖MONA、X9等更多车型，实现高阶L3级别城市自动驾驶的规模化落地。

为了满足从辅助驾驶到高阶自动驾驶对算力的爆发式增长需求，小鹏自主设计并成功流片“图灵”智驾芯片。该芯片采用7nm工艺，集成40核CPU（最高可运行30B参数的大模型）、2个自研NPU、DSA神经网络加速器以及双ISP（分别负责AI感知与图像合成），整体算力可达约750TOPS，堪比三颗主流Orin-X芯片之和；独立安全岛设计确保全车无盲点监控，提升系统安全性与可靠性。此外，自研“图灵”芯片在BOM成本上相较外采方案每颗可节约约1200元，结合研发与流片成本摊销，大规模出货后将显著优化整车成本结构，并为未来算法迭代提供更高的硬件适配灵活性。

小鹏、蔚来与英伟达智驾芯片参数对比

在算法研发方面，小鹏自动驾驶系统经历了从规则驱动到端到端大模型的多轮迭代。最初的Xpilot以Rule-based架构实现ACC与LCC等基础巡航与泊车功能；2021年推出高速NGP，标志公司在辅助驾驶领域具备了行业领先的落地能力；2023年推出城市NGP无图化版本，在全国范围内实现无高精地图覆盖；2024年XNGP+集成BEV+Transformer大模型，打通感知-预测-规划三网，实现真正意义上的端到端一体化决策，并在OTA中持续迭代XBrain架构，支持环岛、掉头及其他复杂场景，性能与鲁棒性不断提升。未来，小鹏将基于Model Distillation与强化学习技术，逐步推进One Model生成式大模型，实现感知、预测与决策的完全融合，实现系统全面泛化与极端场景下的安全可控。

在云端，小鹏搭建了万卡级的“云端模型工厂”，算力储备达10EFLOPS，集群利用率超90%。基于高性能计算与分布式训练平台，小鹏实现了从1M Clips到200M Clips的训练数据扩容，训练带宽和效率提升5倍。通过Model Distillation技术，将云端基座模型有效蒸馏为车端小模型，并结合RL强化学习与世界模型生成闭环反馈网络，实现算法的端云协同迭代。云端模型工厂不仅支撑了XNGP+的快速上线，也为未来“一键升级”更大规模的生成式端到端大模型提供了数据与算力保障。

小鹏云端模型工厂

功能级别的迭代则依托强大的OTA能力实现自下而上的持续进化。自2019年推出XOS 1+版本的LCC车道居中控制，到2020–2022年的XOS 2~3+高速NGP，再到2023年XOS 4+的城市无图NGP，再到2024年XOS 5+端到端XBrain架构的全场景覆盖，小鹏通过每一次OTA推送都将最新算法、策略与体验带给用户。与竞品的单次静态更新不同，小鹏实现了对算法参数、规则网、模型权重等多维度的动态调整与优化，大幅提升了系统对多变道路环境与极端工况的适应能力，并通过实车数据持续闭环验证与迭代，确保功能稳定性与安全性。

小鹏汽车OTA功能实现阶段

面向未来，小鹏已规划了自动驾驶技术的“端到端四部曲”：在2024年Q4实现城区智驾100%无图化量产；2024年年末将车端大模型参数量翻倍，并融合轻雷达、轻地图实现门到门智驾；2026年前后推动云端大模型参数每版提升5倍，实现类L3级别（百公里接管＜1次）的高品质智能驾驶体验；最终在Ultra平台推出Robotaxi，通过AI Eagle Eye、XBrain、图灵芯片与云端模型工厂的协同，实现部分低速场景下的真正意义无人驾驶商业化运营。在此过程中，小鹏还将借助鲲鹏超级电动体系在增程与纯电双轨并行、AI赋能5C超充电池与AI动力优化等方面的协同，进一步推动智能驾驶与电动化的深度融合，赢得智能出行时代的制高点。

小鹏汽车智能驾驶“端到端四部曲”

综上所述，小鹏汽车的自动驾驶系统以SEPA 2.0扶摇架构为底座，凝聚了从AI视觉感知、自研智驾芯片至端到端大模型的全栈自研能力，并通过OTA、云端模型工厂及精细化团队组织保证技术与产品的持续演进。未来，小鹏将继续以创新驱动为核心，以软硬一体化、端云协同为手段，稳步推进L3及以上自动驾驶技术的商业化，实现高频次、低成本、安全可控的智能出行服务。

#MomAD

稳操方向盘！动量感知规划的端到端自动驾驶新SOTA

我们提出了一种名为Momentum-Aware Driving (MomAD)的框架，用于端到端自动驾驶系统中的轨迹规划。该框架通过引入轨迹动量和感知动量来稳定和优化轨迹预测，从而提高自动驾驶系统在动态环境中的鲁棒性和可靠性。

CVPR 2025｜MomAD：动量感知规划的端到端自动驾驶

端到端自动驾驶框架实现了感知与规划的无缝集成，但通常依赖于一次性轨迹预测，这可能导致控制不稳定，并且对单帧感知中的遮挡问题较为敏感。为解决这一问题，我们提出了动量感知驾驶框架（MomAD），该框架引入了轨迹动量和感知动量，以稳定和优化轨迹预测。MomAD包含两个核心组件：（1）拓扑轨迹匹配（TTM），采用豪斯多夫距离选择与先前路径一致的最优规划查询，以确保连贯性；（2）动量规划交互器（MPI），通过交叉注意力机制将选定的规划查询与历史查询相结合，扩展静态和动态感知文件。这种丰富的查询反过来有助于重新生成长时间跨度的轨迹，并降低碰撞风险。为了减轻动态环境和检测误差带来的噪声，我们在训练过程中引入了鲁棒的实例去噪，使规划模型能够专注于关键信号并提高其鲁棒性。我们还提出了一种新的轨迹预测一致性（TPC）指标，用于定量评估规划的稳定性。在nuScenes数据集上的实验表明，MomAD在长期一致性（>3s）方面优于现有的最先进方法。此外，在精心设计的Turning-nuScenes数据集上的评估显示，MomAD在6秒预测时间范围内将碰撞率降低了26%，并将TPC提高了0.97米（33.45%），而在Bench2Drive上的闭环测试中，成功率提高了16.3%。

论文代码：https://github.com/adept-thu/MomAD
论文链接：https://arxiv.org/abs/2503.03125

1. 研究背景：

问题：端到端自动驾驶系统需要无缝集成感知和规划模块，但传统的单次轨迹预测方法可能导致控制不稳定和对单帧感知遮挡的敏感性。
难点：现有方法在处理复杂场景时，往往依赖于一次性轨迹预测，缺乏时序一致性和对动态环境的适应性，容易导致轨迹预测的不稳定和碰撞风险增加。
相关工作：现有的端到端自动驾驶方法如UniAD和VAD在轨迹规划中采用了确定性方法，未能充分考虑轨迹多样性和时序一致性。SparseDrive等方法虽然实现了多模态轨迹规划，但在时序一致性方面仍存在。

自动驾驶技术经历了从模块化、手工设计的管道到更集成化的端到端范式的转变。传统方法将检测、跟踪、地图构建、运动预测和规划等任务分开处理，而端到端框架则强调这些任务的无缝集成。通过优先考虑规划，端到端框架能够战略性地引导来自上游感知模块的信息，从而增强动态驾驶环境中的鲁棒性和可靠性。高质量的规划依赖于准确预测自车未来的轨迹，这需要对静态和动态环境因素（如地图元素和与周围交通参与者的交互）有长远的理解。然而，由于其他道路使用者意图的不确定性、道路条件的变化以及人类驾驶行为引入的模糊性，轨迹预测本质上是随机的，这使得确定性预测变得次优甚至具有风险。现有的多模态轨迹规划方法虽然能够考虑多种可能的交通参与者行为，但它们通常是基于当前感知帧的一次性预测，容易受到遮挡或关键视觉线索丢失的影响，导致轨迹质量下降。此外，缺乏时间一致性可能导致连续轨迹缺乏连贯性，引发不稳定的车辆控制。为了解决这些问题，本文提出了动量感知驾驶框架（MomAD），通过引入轨迹动量和感知动量来稳定和优化轨迹预测，从而在动态驾驶环境中实现更平滑和一致的规划结果。

(a) 确定性规划的方案，例如UniAD，VAD等等方法，缺乏动作多样性，存在安全风险；(b) 多模态轨迹规划方案，例如VADv2，SparseDrive等等方法，通过选择最高分轨迹，但存在最大分数偏移问题导致稳定性不足；(c) 我们提出的MomAD巧妙利用“惯性”的思想，通过动量规划利用历史和感知动量提升时序一致性，解决端到端自动驾驶中不稳定行驶的问题。

2. 研究方法：

Topological Trajectory Matching (TTM)：该模块通过Hausdorff距离选择与历史路径最匹配的多模态轨迹提案，以确保时序一致性和轨迹的连续性。具体来说，TTM模块通过最小化不同时间步之间的规划差异，防止轨迹偏离历史轨迹。
Momentum Planning Interactor (MPI)：该模块通过长时查询混合器将当前最佳规划查询与历史规划查询进行交叉注意力处理，扩展静态和动态感知文件，从而丰富当前查询的上下文信息。MPI模块通过结合历史查询和当前查询，生成改进的轨迹预测，增强了对周围环境的感知能力。
Robust Instance Denoising via Perturbation：在训练过程中引入受控噪声扰动，使模型能够区分关键和无关特征，提高对感知噪声的鲁棒性。通过这种方式，模型在测试时能够更好地应对实例特征的波动，生成更稳定和平滑的轨迹。

3. 结果与分析：

如表所示，MomAD在L2误差、碰撞率和TPC（轨迹预测一致性）上分别达到了0.60米、0.09%和0.54米。与UniAD、VAD和SparseDrive等最先进方法相比，我们的方法在规划结果上表现出色。值得注意的是，我们在TPC指标上取得了显著改进，在nuScenes数据集上1秒、2秒和3秒的TPC分别提升了0.30米、0.53米和0.78米，直接证明了我们在时间一致性方面的有效性。总体而言，MomAD有效利用了动量的平滑优势，在提升时间一致性方面效果显著。

准确的长轨迹预测对于提升自动驾驶的稳定性至关重要，同时也有助于评估模型解决多模态轨迹规划中时间一致性问题的能力。如表所示，我们在nuScenes和Turning-nuScenes数据集上对比了SparseDrive和MomAD在4-6秒长轨迹预测中的表现，结果显示MomAD在性能上有显著提升。具体而言，在nuScenes数据集中，与SparseDrive相比，MomAD在4秒、5秒和6秒的L2误差分别降低了0.09米（5.14%）、0.34米（14.66%）和0.50米（16.95%），碰撞率分别降低了0.04%、0.11%和0.20%，TPC（轨迹预测一致性）分别降低了0.14米（10.53%）、0.21米（12.65%）和0.38米（19.10%）。此外，在Turning-nuScenes数据集中，与SparseDrive相比，MomAD在4秒、5秒和6秒的L2误差分别降低了0.27米（13.04%）、0.64米（23.62%）和0.85米（25.30%），碰撞率分别降低了0.06%、0.14%和0.26%，TPC分别降低了0.17米（11.04%）、0.73米（31.60%）和0.97米（32.45%）。可以观察到，MomAD在更远距离的轨迹预测上表现显著提升，尤其是在6秒时的改进幅度最大。总体而言，MomAD提升了长轨迹预测的性能，进一步证明了其能够有效缓解时间一致性问题。

我们已在Bench2Drive数据集上进行了具有挑战性的闭环评估，结果如表所示。该数据集涵盖44个交互场景，例如切入、超车、绕行，以及220条路线，覆盖多种天气条件和地点。我们的MomAD框架在成功率上分别比VAD多模态变体和SparseDrive提高了16.3%和8.4%，并在舒适度评分（轨迹平滑度）上分别提升了7.2%和5.3%，证明了其有效性。

4. 总体结论：

MomAD框架通过引入轨迹动量和感知动量，显著提高了端到端自动驾驶系统在轨迹规划中的稳定性和鲁棒性。未来工作将探索扩散模型和推测解码方法，以进一步提高轨迹多样性和效率。

#BEV感知两大范式

LSS vs Transformer，到底谁更适合量产？

01前言

人工智能技术的蓬勃发展已经引起了各行各业的技术革命，而智能驾驶技术，作为AI落地历程的一大里程碑，已经成为近年产业界和学术界关注的重点。经过了智驾技术的数年沿革，BEV（Bird's Eye View）已成为了其感知系统的一种基本范式。基于BEV的相关技术给了车辆“上帝视角”的全局感知能力，不仅打破了多模态数据融合的壁垒，更让智驾系统实现了从“被动拼接”到“主动认知”的跃迁。

下面，本文将对应用于智驾的视觉BEV感知方案发展情况做简要综述，并从硬件架构设计的角度分析高效部署BEV面临的挑战。

02BEV是什么？我们为什么需要BEV？

自动驾驶向L3+的持续演进，驱动着任务应用场景更加广泛和复杂。从较简单的ACC、LCC到更为复杂的APA、NOA，智能驾驶算法的发展态势更加趋向于大算力、多模态。

本质上，基于神经网络的智驾方案与其他很多CV领域的AI算法一样，也是一个通过对“图像”（这里我们暂且把Radar、Lidar也称为一种“图”）的分析处理来得到理想输出的单一解问题。

一套传统的自动驾驶系统完成工作主要经过三步：通过面向外部世界的传感器获得各种信息，结合自车运行态的数据实现动作决策，最终控制车辆实现转向制动等实际操作。现如今随着行业任务需求的发展，单传感器已经很难完成任务，为了应对更加复杂的驾驶场景和任务，也为了保证智驾系统管理下的车辆安全性，多摄像头甚至Lidar的加入已经成为了客观趋势，而这种多模态的输入一定程度上更优于人类司机单一视角，在感知部分已基本实现了完备性。

但同时，就算已经有不同种类足够多数量的输入，如何将这么多的输入利用起来呢？以环视多摄像头的输入为例，如下图所示，对于车身周围两个不同位置的摄像头，其拍到的路况信息在现实世界的几何位置上大部分是不会重叠的，也就是说，我们在感知处理时无法通过把某个输入映射到另一个输入相应位置的形式实现特征图的导出（这通常是单摄像头多模态融合问题的常用处理策略）。因此最直观的方法就是使用一种“能放的下所有位置的特征图”，那么BEV就应运而生了。

BEV主要用于在智驾系统中解决感知问题，其实际上是指以俯视视角构建的中间特征图，感知部分的神经网络输入多摄像头图像或Lidar点云，输出映射到一个固定宽高的俯视网格上，每一个输入都有其对于BEV图的映射关系，就实现了对多模态输入信息的有效表征。通过BEV，多加的传感器就实现了应用意义。综合来看，以BEV作为感知方案的优势有以下几点：

●统一的特征图形式：多摄像头图像、Lidar图像可以统一在BEV空间投影，消除透视畸变带来的距离估计误差，有利于多模态场景下scalable。

●便于时序建模：BEV特征图可作为时间序列的载体，更好支持实际智驾场景中多帧视频流的输入，支持长时序运动预测。

●决策友好性：俯视视角与规划控制模块的思考维度天然对齐，简化下游任务处理。

03视觉BEV：从LSS到Transformer

BEV感知是一个较为宽泛的领域，其网络输入主要有点云和视觉图像两种，传感器不同，所对应的算法网络结构思想也是完全不同的。这部分我们将讨论视觉感知的经典算法，通过了解BEV感知算法的基本框架，对其运算方式的特异性进行分析。

首先，从任务端到端的角度来看，如下图所示，BEV感知任务的对应网络实现主要分为三大部分：前端的特征提取网络，用于将相机输入图片处理为特征图，通常使用SwinT或ResNet等成熟的特征提取方法；中间的视角转换模块（VTM，View Transformation Module），用于将Camera域的特征图转换到俯视角度下的BEV特征图，也是模型中最为复杂的部分；后端的task head，根据具体的任务场景要求处理BEV特征图，实现诸如识别、分割、轨迹规划等后端任务，这一部分也同样可以使用成熟的替换插件。对于前后端的部分，卷积和Transformer的硬件实现方案已经基本成熟，因此，如果想要设计一款高吞吐的BEV感知处理器，最为需要关注的就是如何高效实现VTM。

算法上，对于VTM的实现方法已经有了两种基本范式：

●Forward Projection：以LSS（Lift Splat Shoot）为代表，通过对每张图的深度进行估计，以此得到camera中某位置特征点映射到俯视角度的直接映射关系，通过投影和BEV pooling的方式将其映射到网格上。

●Backward Projection：以BEVFormer为代表，通过Attention机制构建BEV网格特征与特征图之间的相互关系，以此得到dense的BEV特征图。

针对这两种方案的算法结构介绍相信论坛里的帖子已经有了很详细的讲解，因此这里我们不再赘述，只以一个硬件架构设计者的角度简要分析这两种算法中有趣的部分。

LSS

LSS是NVIDIA在2020 ECCV上发布的BEV感知算法，实现较早也较简单，其VTM部分利用深度估计结合相机内外参矩阵进行几何映射实现，是即插即用的设计。由于LSS的深度估计部分并不精确，且很难应用具体场景中的时序信息，因此现在并不在各大刷分网站上居于SOTA地位，但仍不失为一种容易部署的，较为轻量化的经典VTM方案。

Splat pooling导致随机存取

从算法本身角度上，LSS中实际用于Camera到BEV的视角转换的部分是Splat。在该步骤中，先要通过内外参矩阵的运算得到转换矩阵，矩阵中存放着输入视锥点云（通过前序的深度估计得到）中某像素位置某深度的点对应在BEV坐标下的位置，接下来LSS通过该映射关系矩阵从对应视锥中取相应坐标的点，并将其放置到BEV对应网格点上，并采用pillar pooling的trick加速这一得到BEV特征的过程（当然，这种算法编程上的trick在专用硬件的构建中意义不大）。

这一过程并不涉及对运算的需求，但需要在单次处理中对整个视锥点云中的点做Gather/Scatter的操作，且每次读取的数据并不能重用，对于硬件带宽提出了很高的需求。而这种随机读写操作的方式取决于相机内外参，因此常常是设备特异的，很难利用常规并行计算硬件，如NPU、GPU等在运算阵列上的优势。针对这一问题，算法界也提出了一些改进方案，如利用矩阵运算完成VTM，以避开带宽受限的Splat操作。

Transformer

BEV+Transformer的范式首先由Tesla AI Day中首先提出，基于其纯视觉方案实现，现如今已经成为部署最广落地应用最多的BEV感知方案。当然，现在Tesla力推端到端且并未开源，我们并不知道其如何得到BEV，但该范式仍被国内各大厂家follow，transformer（或者说是attention）方案现在仍是最稳定的BEV感知方案之一。

BEVFormer在2022 ECCV上被发布，其采用了Deformable DETR中的attention方案，实现了类似Tesla的BEV感知效果，使得视觉BEV方案的精度有了大幅提高（基于原始的纯视觉实现，BEVFormer近几个月新发布了多模态的版本）。目前，BEVFormer已经作为一项经典的BEV实现算法，在地平线、NVIDIA等一众硬件上实现了部署。其提出的attention机制也可以单独作为backbone被直接应用在其他网络上。下面，我们以BEVFormer为例，对BEV+Transformer范式进行分析。

多层Transformer架构导致大算力需求

首先，相比于LSS直接映射的单层设计，BEVFormer方案中采用堆叠Attention层的方法进行BEV特征的提取。每个子模块包含两个不同机制的Attention层：

●Temporal self attention：相邻帧的BEV特征之间做Attention，用于融合前后帧之间的时序信息；

●Spatial cross attention：当前帧BEV特征维度上做Attention，用于整合空间信息；由于BEV的特征维度很高（如典型值：BEVFormer_tiny为50×50×256），多层Attention的VTM设计会极大提高网络需要的硬件计算量和存储参数量的需求，例如对于BEVFormer-S预计每帧需要1.3T的算力，单网络对于车载SoC的算力需求是非常大的。

特殊算子Deformable Attention

其次，对于BEV感知的优化点，集中在如何简单高效地从原始2D特征中筛选处理特征到新的3D维度上。BEVFormer在此采用的方案是Deformable DETR中采用的Deformable attention，在具体计算过程中，该方案需要使用grid_sample算子，双线性插值的方法从Value矩阵中根据坐标取值并赋以权重，不同于传统Self-attention机制对于全局做Attention，这一方案优势是可以极大减少对大Tensor的处理计算量，缺点是无重用的随机存取过程同样导致对于硬件带宽的需求。

另外，在实际的智驾场景中，由于自车运行状态变化会导致输入参数变化，时序Attention中的旋转角、空间Attention中的mask等是要进行动态运算的，这也就给硬件部署的支持造成了额外的压力。

BEV in nuScenes

nuScenes是一个大规模自动驾驶公开数据集，由Motional团队于2019年发布，其中包含3D目标识别、多传感器融合、轨迹预测等算法的开环训练和验证数据集。nuScenes现已成为智驾算法的一大跑分平台，业内各大公司、研究机构均常用其检验自家算法的运行情况，其上的网络情况一定程度上也能表征某任务主流SOTA网络形态的发展趋势。

以3D目标识别任务为例，截至数据整理的2024年12月，其上已有不少视觉BEV方案实现了SOTA的效果，例如：HoP对于BEV网络的时序信息整合方案进行了优化，生成伪BEV，且可以直接整合进现有的BEV backbone中；VCD在训练中加入了Lidar信息进行辅助蒸馏；VideoBEV关注长时间序列的BEV时序信息处理等等。现在的BEV识别算法也更倾向于对VTM部分进行优化，大多采用Attention的方案，更关注于充分利用Attention优势对于时序信息做更好的处理，或者引入更多的监督信息以规避纯视觉方案在推理状态下缺乏信息的弊端。

现有的硬件BEV解决方案

目前，硬件领域公开论文中对于BEV感知的讨论并不多，其中值得follow的有清华在2024年CICC、JSSC上发布的工作，其核心关注点主要在特殊映射算子和大算力需求两方面。

这项工作的内容更多倾向于是将视觉BEV作为点云3D感知硬件的拓展，文章采用了BEVFusion作为验证算法，将点云和图像两个不同域的输入统一到了一个BEV的表征框架下。文章主要关注的算子中，对于点云部分，其提取了SCONV作为基本算子，而视觉部分则对于LSS mapping进行了实现。为了实现SCONV和LSS中的动态映射，该工作采用了可重构CAM阵列进行index的存储，实现了算法感知的CAM调度方案进行加速。并且设计了可拓展的chip-level拓扑以在单芯片算力不足的情况下实现大规模BEV算法的部署。

对于业界的实际应用上，由于BEV的相关算法往往存在大批量的高带宽索引操作或与Attention机制相关的element-wise算子，这与传统意义的并行计算硬件很难兼容。各家对于这种形式运算的直接支持并不是太好，因此更倾向于采用软硬件协同优化的方式进行规避。例如采用MatrixVT、FastBEV等兼容性好的，或通过修改算法的方式实现BEVFormer。现在的智驾应用场景也对算法复杂度提出了更高的需求，因此，车载芯片的发展趋势更倾向于大算力，且可能需要涵盖座舱和智驾两方面的AI运算需求，例如地平线的J6算力最高560T，NV的Thor预期算力甚至达2000T。

04总结与展望

随着近年智驾技术的飞速发展，BEV+Transformer范式已经成为了视觉3D感知的一个经过实践检验的“标准解”。其相关应用的算子独特性和运算复杂性也已经对智驾相关的硬件提出了更高的要求。受AI智驾方案本身的限制，其在车端的部署某种程度上可以说已经超越了边缘侧的一般需求，更倾向于要求大算力甚至分布式调度。BEV感知在实践中很有效，但算法过“大”，这也逼迫着算法和硬件设计者去做特殊算子的设计，而这在某种程度上又提高了对带宽和专用硬件的需求，可以说，不仅仅是BEV感知，很多AI相关的算法与硬件就是在这种trade-off中前进的。

而对于视觉BEV感知方面（1）如何解决BEV映射问题和（2）大算力大存储带宽需求问题，已经成为当前BEV+Transformer硬件SoC架构和设计的两个重要难点。诚然，跟随着Tesla这一行业风向标，目前工业界智驾SOTA或已由BEV、Occupancy等显式环境建模技术，逐步过渡到端到端神经架构（这类“黑箱”系统通过海量数据驱动，直接从传感器输入映射到控制信号，以追求更高的场景泛化性与决策流畅性）。然而，BEV框架仍展现出不可替代的工程实践价值与可解释性优势，尤其在对安全性要求严苛的自动驾驶领域。

#自动驾驶激光雷达之间会相互干扰吗？

对于自动驾驶汽车来说，搭载在车顶和车身周围的激光雷达（LiDAR）已成为环境感知的“眼睛”。激光雷达之所以被广泛采用，是因为它能够快速、准确地捕捉周围物体并生成三维点云，为车辆规划行驶路线提供关键数据。任何一个激光雷达，首先要做的就是发射和接收光信号。它会通过激光发射模块不断地向四周扫描，发出成千上万束激光脉冲或连续调制的光线，光束遇到障碍物后会被反射回来，再由接收模块捕获。这些往返的时间差，便是激光雷达测距的核心指标——飞行时间（ToF），还有某些先进设备通过比较发射光与回波光的频率差（FMCW技术）来计算距离和速度。为实现对整个周边环境的覆盖，传统方案往往让激光器安装在一个能够高速旋转的支架上，不断扫过周围360度；新兴固态相控阵方案则利用微机电系统或光学相控阵元件，无需机械运动便可完成大角度扫描。

激光雷达的硬件主要分成发射、接收、扫描和处理四大部分。发射单元需要一个能够输出稳定脉冲或线性调频光源的激光器；接收端则搭配高灵敏度的光电探测器，用来捕捉回波信号；光学系统中的透镜和反射镜负责将光束聚焦并调整方向；最后由信号处理单元将采样到的电信号转换成数字数据，经过滤波、峰值检测和算法计算后，拼凑成一幅幅精细的三维点云图。对自动驾驶车辆而言，这些点云图是识别行人、自行车、车辆、路沿和交通标志的基础。

激光雷达构成

当车流量不高时，每一台激光雷达都在相对“清净”的环境中工作，它发出的光脉冲绝大部分都会击中真实障碍物后返回，数据质量很高。但如果路上出现了多台近距离行驶且都在发射相似波长、相似调制方式的激光，有时一个设备发出的光脉冲会恰好在另一台接收器的采样窗口内被误当成自身回波，产生虚假的测距结果。更直白地说，A汽车发的脉冲恰好落在B汽车的“收听”周期里，B就会把A发的信号识别成路面或障碍物返回的信号。类似情况在FMCW型激光雷达中也会出现，当两台设备的调频带宽或起始频率接近时，混频后会产生多重频差峰值，接收端很难分辨哪一个才是真正针对自己的目标。

在城市拥堵或红绿灯前排队等候的场景中，这种“串波”效应获将尤其明显。比如两辆搭载激光雷达的自动驾驶汽车并排行驶时，如果它们的扫描角度重叠，A车前方的树干产生的回波很可能被B车接收，这就会让B车在自己的点云中看到多余的“树丛”，影响对实际行人或车辆的识别和判断。又或者在交叉口等待时，旁边车辆的回波误入本车点云，使得系统以为前方有人横穿道路，从而激发不必要的急刹车。更严重的情况是，在拥挤的隧道或多层停车场里，多路径回波也会被相互叠加，这将给算法滤波带来更大挑战。

激光雷达之间产生干扰的原因，其实可以归结为频率、时间和空间三方面的重叠。激光器的波长往往集中在905nm或1550nm两个波段，即使厂家在出厂调校时稍有差异，由于接收器带宽较宽，还是能捕捉到相邻波长的光子。不同设备如果没有精准同步发射时序，也很容易出现脉冲或者调频信号在时间上互相“撞车”。此外，扫描方向如果对不上角度，彼此发射的光束就会在空间中重叠，一个设备的光束就恰好也在另一个设备的视野内被接收。

若搭载激光雷达的汽车出现上述情况，将可能导致严重的后果。首先是虚警率上升，也就是系统会把不存在的物体当真，出现过多的“假障碍”，这会降低自动驾驶系统对真实障碍的响应速度，甚至导致不必要的急停或绕行。其次是漏检风险，真正存在的行人、车辆或障碍在一片杂乱的点云噪声中，很容易被淹没，算法无法精确提取，进而无法及时作出避让决策。更深层次的隐患在于，激光雷达数据往往和摄像头、毫米波雷达等多传感器融合，如果LiDAR数据质量持续不稳定，将影响整个感知链路的可靠性。

对于这个问题，业界已经在硬件和软件层面展开了多管齐下的攻关。一些厂商尝试在不同波长或不同调制带宽之间进行频域隔离，让相邻车辆的信号在频率上互不重叠；也有人推广基于卫星定位（GNSS）或车联网（V2V）通信的时间同步方案，将不同车辆的发射时隙严格错峰，确保任何时刻同一区域内只有少数几辆车在同一时段发射。固态相控阵LiDAR的出现，为空间隔离提供了更多可能，通过电子方式改变光束指向，在保证关键方向高分辨率的同时，对其它方向的“入侵”信号进行衰减。

在软件层面，也有技术提出运用编码和匹配滤波技术，为每台LiDAR的光脉冲或调频信号加上专属的“身份标记”。接收侧只对带有自己标记的信号进行解码，其他带有不同标记的信号就被当作噪声剔除掉。这种思路与通信领域的CDMA（码分多址）类似，但在光学域内实现对实时高频信号的编码解码，对处理器性能提出了不小挑战。此外，点云后处理算法也更加智能化，通过机器学习模型在线识别潜在的串扰点云，将可疑点云归为“干扰”类别，并在融合其它传感器数据后进行校正。

想要解决这个问题，除了依靠单车或单系统的改进外，车与车之间的协同也显得尤为关键。借助高速低时延的C-V2X（蜂窝车联网）或DSRC（专用短程通信），不同车辆可以实时交换雷达状态和时隙安排，一旦检测到潜在的发射冲突，就能立刻通过网络指令调节发射功率、改变发射时隙或调整扫描角度。这种集中式或分布式的资源调度，每辆车既能保持对周围环境的高精度感知，又能避免对同伴造成“激光干扰”。

未来，激光雷达的抗干扰技术或将与整车智能化、一体化设计深度融合。光子集成芯片的不断进步，将让LiDAR芯片级别的小型化和低功耗成为可能，未来大规模装车的成本也会大幅下降。车载中央处理单元（域控制器）将集成更强大的AI算力，能够在毫秒级的时间尺度对多源数据进行融合、判别和校正，实时区分自家激光信号与他家信号，并动态调节发射参数。云端大数据平台的崛起，能够将各地道路上、各种路况下的雷达“实战”数据进行汇聚与分析，为更新算法和优化配置提供持续反馈。

当多辆自动驾驶汽车同时使用激光雷达时，确实存在相互干扰的可能，从而导致虚警、漏检和感知失真等问题。但好在，无论是频率和时序的隔离、编码与解码的抗干扰手段，还是车联网的协同调度和后端智能算法，各种对策正在不断成熟和落地。随着技术和标准的不断完善，激光雷达的抗干扰能力将得到显著增强，进而为自动驾驶车辆提供更加可靠的“第三只眼”，助力智慧交通在未来真正走上大规模商用之路。

#SOLVE

视觉语言和端到端网络在自动驾驶中的协同作用

论文链接：https://arxiv.org/pdf/2505.16805

摘要

本文介绍了SOLVE：视觉语言和端到端网络在自动驾驶中的协同作用。将视觉语言模型（VLMs）集成到自动驾驶系统中已经在应对学习复杂性、可解释性和常识推理等关键挑战方面展现出前景。然而，由于计算要求，现有的方法往往难以实现高效集成和实时决策。本文引入了SOLVE，这是一种将VLMs与端到端（E2E）模型相结合的新框架，以增强自动驾驶汽车规划。本文方法强调通过共享的视觉编码器在特征级别共享知识，从而实现VLM和E2E组件之间的全面交互。本文提出了一种轨迹思维链（T-CoT）范式，该范式逐步细化轨迹预测结果，从而降低不确定性并且提高准确性。SOLVE通过采用一种时间解耦策略，将高质量的VLM输出结果与E2E实时性能对齐来实现高效协作。在nuScenes数据集上对本文方法进行评估，结果表明，本文方法在轨迹预测准确性方面具有显著提升，从而为更鲁棒、更可靠的自动驾驶系统铺平了道路。

主要贡献

本文的贡献为如下三方面：

1）本文提出了SOLVE，这是一种促进VLM和E2E模型之间协同作用的新框架，强调了将知识和轨迹相结合；

2）本文提出了轨迹思维链（T-CoT），它通过预定义的轨迹库和链式推理来逐步细化轨迹；

3）本文通过大量实验证明了所提出方法的有效性，并且本文框架在nuScenes基准上实现了最先进的开环规划结果。

论文图片和表格

总结

本项工作引入了SOLVE，这是一种促进视觉语言模型（VLM）和端到端（E2E）模型之间协同作用的新框架，强调了将知识和规划相结合。为了应对VLMs以自回归方式直接生成细粒度轨迹所面临的挑战，本文提出了轨迹思维链（T-CoT），它使用预定义的轨迹库和链式推理来逐步细化轨迹。此外，本文还提出了一种时间解耦策略，以促进VLM和E2E模型之间的协作。在nuScenes数据集上的实验表明，本文方法实现了最先进的结果。

#端到端自动驾驶 - 扩散模型的应用

当Stable Diffusion用文字生成逼真图像时，谁曾想这项“AI造物术”正在重塑自动驾驶的神经中枢？扩散模型——这个通过“加噪-去噪”学习数据本质的生成式AI，已从艺术创作跃迁为自动驾驶的核心引擎！

2025年，英伟达Cosmos用扩散模型生成百万级仿真场景，蔚来NWM靠它0.1秒推演216种驾驶轨迹，地平线更直言：“扩散模型让车辆从‘看到世界’升级为‘理解物理规律’”。在这场技术军备竞赛中，谁掌握扩散模型的落地能力，谁就扼住L4级自动驾驶的咽喉。

若你想洞悉这场“生成式AI如何颠覆传统规控”的技术革命，欢迎加入自动驾驶之心社区——与一线开发者共探AI驾驶的最前沿！下面让我们看看部分热门工作

根据图片内容，完整提取文字信息如下（已按原始条目排版）：

题目：MOBl: Multimodal Object Inpainting Using Diffusion Models

链接：https://arxiv.org/pdf/2501.03173 简介：MObl:一种新的多模态目标修补框架

题目：OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving

链接：https://arxiv.org/pdf/2412.17226 简介：OLiDM:用于自动驾驶的目标感知激光雷达扩散模型，能够在目标和场景层面生成高保真度的LiDAR数据

题目：Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles

链接：https://arxiv.org/pdf/2412.14494 简介：为自动驾驶应用采集车辆资产！Drive-1-to-3:丰富扩散先验的实车新视图合成方法

题目：Cityscape-Adverse: Benchmarking Robustness of Semantic Segmentation with Realistic Scene Modifications via Diffusion-Based Image Editing

链接：https://arxiv.org/pdf/2411.00425 简介：自动驾驶城市合成数据集又有新点子！Cityscape-Adverse: 利用基于扩散的图像编辑来模拟八种不利条件（包括天气、光照和季节变化）的基准，同时保持原始语义标签

题目：Planning-Aware Diffusion Networks for Enhanced Motion Forecasting in Autonomous Driving

链接：https://arxiv.org/pdf/2410.19639v1 简介：用于增强自动驾驶运动预测的规划感知扩散网络

题目：A Comprehensive Survey on Diffusion Models and Their Applications

链接：https://arxiv.org/pdf/2408.10207 简介：扩散模型及其应用全面综述

题目：Diffusion Models in Low-Level Vision: A Survey

链接：https://arxiv.org/pdf/2406.11138 简介：首个围绕低层次视觉任务中去噪扩散模型技术全面综述

#端到端自动驾驶算法实现原理

01 从传感器数据到控制策略的端到端方法

端到端自动驾驶基本流程：

（1）子任务模型被更大规模的神经网络模型取代，最终即为端到端神经网络模型；

（2）由数据驱动的方式来解决长尾问题，取代rule-based的结构。

优点：

（1）直接输出控车指令，避免信息损失；

（2）具备零样本学习能力，更好解决OOD问题；

（3）数据驱动方式解决自动驾驶长尾问题；

（4）避免上下游模块误差的过度传导；

（5）模型集成统一，提升计算效率。

02 完全端到端是怎么做的

评估指标

●开环指标

○L2误差

○碰撞率

●闭环仿真

○路线完成率（RC）路线完成的百分比

○违规分数（IS）衡量触发的违规行为

○驾驶分数（DS）表示驾驶进度和安全性

03 端到端的一些主流方法

3.1 UniAD算法详解

算法动机

●跨模块信息丢失、错误积累和特征misalignment

●负向传输

●安全保障和可解释性方面

●考虑模块较少

开创性思路

●第一项全面研究自动驾驶领域包括感知、预测和规划在内的多种任务的联合合作的工作

●以查询方式链接各模块的灵活设计

●一种以决策为导向的端到端框架

主体结构

性能对比

消融实验证明各个模块都是不可或缺的，然后再去对比单个模块的性能。各个模块的对比这里不再展开。

3.2 VAD算法详解

算法动机

●栅格化表示计算量大，并且缺少关键的实例级结构信息

●矢量化表示，计算方面效率高

主体结构

该模型包括特征提取、特征转换、矢量化场景学习、规划模块。

性能对比

3.3 UAD算法详解

算法动机

●现存方法的标注和计算开销过大，所以本篇没有人工标注的需求

●感知模块的标注不是提升规划性能的关键，扩大数据量才是关键。只对数据量扩大但不增加标注成本。

开创性思路

●无监督代理任务

●自监督方向感知策略

主体结构

整体结构包括两部分的内容，分别是

●无监督的代理任务

●利用方向感知的规划模块

该模块包括三部分的内容

（1）PlanningHead规划头（通过模仿学习来计算未来轨迹，对BEV特征进行旋转，过规划头得到响应的预测轨迹，然后GT也要旋转，两者得到一个模仿学习的loss。）

（2）Directional Augmentation方向增强（先对轨迹沿着车辆行驶方向划分为直行、左转、右转，然后通过这个预测头做一个三分类）

（3）Directional Consistency方向一致性（旋转后的特征得到的轨迹再旋转回去之后，跟之前的对比得到loss。）

性能对比

3.4 SparseDrive算法详解

算法动机

●认为传统方法中BEV特征计算成本高

●忽略了自车对周围代理的影响

●场景信息是在agent周围提取，忽略了自车

●运动预测和规划都是多模态问题，应该输出多种轨迹

开创性思路

●探索了端到端自动驾驶的稀疏场景表示，并提出了一种以稀疏为中心的范式

●修改了运动预测和规划之间的巨大相似性，提出了一种分层规划选择策略

主体结构

输入环视的6幅图像，输出是其他agent的预测和规划结果。

中途处理过程包括：特征提取、对称稀疏感知、平行运动规划三大模块。

在对称稀疏感知模块中，主要包含：稀疏检测、稀疏跟踪、稀疏在线建图任务，我们来具体看一下。

在平行运动规划器模块中：作者认为其他agent的轨迹预测和自车的轨迹预测应该是一个任务，并且是互相影响的。

性能对比

3.5 ReasonNet算法详解

这是一个时序+多模态的方案，这篇论文对一些特殊的场景进行了考虑。

算法动机

●应该对驾驶场景的未来发展做出高保真的预测；

●处理长尾分布中罕见不利事件，遮挡区域中未被发现但相关的物体。

开创性思路

●提出一种新型的时间和全局推理网络，增加历史的场景推理，提高全局情景的感知性能；

●提出一种新基准，由城市驾驶中各种遮挡场景所组成，用于系统性地评估遮挡事件。

主体结构

这篇文章是多模态的，所以其输入是图像输入和雷达点云的输入所组成的，输出是waypoints。

主体结构分为三个模块：

●感知模块：从Lidar和RGB数据中提取BEV特征；

●时间推理模块：处理时间信息并维护存储历史特征的存储库；S用于计算存在Memory Bank中的历史特征和当前特征的相似度

●全局推理模块：捕获物体与环境之间的交互关系，以检测不利事件（如遮挡）并提高感知性能。

性能对比

基于本文提出的新的benchmark叫做DOS benchmark：四种场景分别包含25种不同的情况，包括车辆和行人的遮挡，有间歇性遮挡和持续遮挡但有交互线索。

3.6 FusionAD算法详解

这是一篇多模态的方案，是在UniAD的基础上加入了点云数据，改造成了多模态的方案。

算法动机

●传统的模块化方法没办法支持梯度反传，会造成信息的丢失。

●UniAD只支持图像输入，不支持激光雷达信息。

开创性思路

●第一个统一的基于BEV多模态、多任务的端到端学习框架，重点关注自动驾驶的预测和规划任务；

●探索融合特征增强预测和规划任务，提出一个融合辅助模态感知预测和状态感知规划模块，称为FMSPnP。

主体结构

该模型的主体结构包括特征融合模块、预测模块、规划模块。

性能对比

3.7 Hydra-MDP算法详解

CVPR 2024端到端自动驾驶挑战赛冠军+多模态方案，具备多个目标的多头蒸馏。

算法动机

开创性思路

●引入了更多的正样本，由不同专家给出；

●感知真值引入规划模块用于训练。

主体结构

第一部分是感知的信息处理融合和提取，第二个模块是用前面得到的特征去解码出轨迹，最后一个模块是多目标学习范式部分。

感知模块用的Transfuser的baseline

轨迹解码器：计算不同的预测轨迹与GT轨迹的距离，这里用的是L2，用这个距离做softmax，然后去产生不同轨迹的得分情况，从而去监督得分。

性能对比

#基于扩散的生成模型实现自动驾驶中3D占用预测

论文链接：https://arxiv.org/pdf/2505.23115

摘要

本文介绍了基于扩散的生成模型实现自动驾驶中3D占用预测。从视觉输入中准确预测3D占用网格对于自动驾驶是至关重要的，但是当前判别式方法难以处理带有噪声的数据、非完整的观测结果以及3D场景中固有的复杂结构。本项工作将3D占用预测重新定义为使用扩散模型的生成建模任务，其学习底层数据分布并且结合3D场景先验。该方法增强了预测一致性和噪声鲁棒性，并且更好地处理了3D空间结构的复杂性。本文大量实验表明，基于扩散的生成模型优于最先进的判别式方法，它提供了更逼真、更准确的占用预测结果，特别是在遮挡或者低能见度区域。此外，改进的预测结果明显有利于下游规划任务，突显了本文方法在现实世界自动驾驶应用中的实际优势。

主要贡献

本文的主要贡献总结如下：

1）本文将占用预测作为一个“先生成建模，然后条件采样”的过程，从中总结了与判别式方法相比的四个具有吸引力的性质；

2）本文探索了利用条件生成建模来实现占用预测任务的五个关键设计方面；

3）本文通过大量实验证明，结合扩散模型可以显著提高占用预测的性能。本文方法生成的占用特征也有利于下游规划任务。

论文图片和表格

总结

本文实验证明了Diffocc在具有挑战性的场景中具有卓越的性能，它提供了更准确、更逼真的预测结果。这一改进不仅增强了感知能力，还有利于下游规划任务，突出了生成建模对于改进自动驾驶系统的潜力。

#行驶路面树干报漏检了，锅丢给了自动标注。。。

通用障碍物自动标注怎么做？

小林是一名主机厂的云端模型算法工程师，工作已经四五年了。这两天接到了车端报的Case，恶劣天气倒在地上的树干漏检，行车时紧急刹停差点酿成事故。。。不出意外，原因最后排查到数据的问题，要求数据团队紧急补充训练数据。

小林为难的挠了挠头，这种异常case也太难解决了。检测没办法解决这种异常的占用问题，标注数据也从未见过，看来只能靠OCC来做下兜底了。想到这里，小林觉得需要精标一小批数据提供车端先使用，再配合挖掘大模型和云端模型的自动标注模型快速迭代数据量才能保证车端模型的泛化，看来又要有一段时间的苦日子了。。。

自从2022年特斯拉宣布Occupancy Network上车以来，当下占用网络已经作为各家纯视觉智驾方案的标配。目前OCC作为行车和泊车中的重要感知模块，对训练数据的标注需求也十分旺盛的，尤其是OCC需要更昂贵的点云标注，因此业内很多公司都在推进OCC的自动化标注，以期快速迭代模型的泛化性能。

简单来说，占用网络的目的将空间划分成小网格，预测每个网格的占用情况，解决异形障碍物。

占用网络最重要的的功能之一就是建模异形障碍物，像倒地的树木枝干、不规则车辆等等，同时可以建模路面等其他背景元素。

那么如何生成OCC训练真值呢，业内目前通用的流程如下图所示：

得到训练数据的真值后，便可以使用计算量更大的模型训练，进而给未标注的数据生成伪标签，但是伪标签的数据质量如何把控？业内常用的方法主要有三种：

方案一：2D-3D目标检测一致性；
方案二：与端侧模型比较；
方案三：人工标注介入修改后质检。

自动标注难在哪里？

自动驾驶数据闭环中的4D自动标注（即3D空间+时间维度的动态标注）难点主要体现在以下几个方面：

时空一致性要求极高：需在连续帧中精准追踪动态目标（如车辆、行人）的运动轨迹，确保跨帧标注的连贯性，而复杂场景下的遮挡、形变或交互行为易导致标注断裂；
多模态数据融合复杂：需同步融合激光雷达、相机、雷达等多源传感器的时空数据，解决坐标对齐、语义统一和时延补偿问题；
动态场景泛化难度大：交通参与者的行为不确定性（如突然变道、急刹）及环境干扰（光照变化、恶劣天气）显著增加标注模型的适应性挑战；
标注效率与成本矛盾：高精度4D自动标注依赖人工校验，但海量数据导致标注周期长、成本高，而自动化算法面对复杂场景仍然精度不足；
量产场景泛化要求高：自动驾驶量产算法功能验证可行后，下一步就需要推进场景泛化，不同城市、道路、天气、交通状况的数据如何挖掘，又如何保证标注算法的性能，仍然是当前业内量产的痛点；

广州城市开发者社区

欢迎加入我们的广州开发者社区，与优秀的开发者共同成长！

更多推荐

大厂级企业后端：配置变更与缓存失效的自动化处理方案

摘要：大厂通过"配置中心+多级缓存+事件驱动"架构实现配置变更秒级生效。采用Apollo/Nacos作为配置中心，结合本地缓存、Redis和数据库的多级缓存体系，通过事件驱动机制自动清除旧缓存并加载新配置。消息队列提供兜底保障，监控系统确保流程可靠性。相比传统重启服务或手动清除缓存的方式，该方案实现了无感知、无业务中断的配置更新，解决了高并发场景下的缓存一致性问题。整套系统体现