1 前言

        车企大模型系列,在前面的博客中分别介绍了多家车企的方案,有些车企(比如理想汽车/小鹏汽车)公开的相关信息比较多,对很多读者来说,也算是福利。通过了解各家车企的大模型方案,对于从事自动驾驶的朋友能更宏观的看大模型的发展。

        《自动驾驶大模型---华为ADS4.0

        《自动驾驶大模型---小鹏汽车VLA大模型

        《自动驾驶大模型---蔚来汽车之NWM

        《自动驾驶大模型---理想汽车下一代MindVLA大模型

        《自动驾驶大模型---小米&华科的ORION端到端方案

        《自动驾驶大模型---轻舟智行的端到端方案

        《自动驾驶大模型---旷视科技之PADriver

        《自动驾驶大模型---商汤之开悟大模型

        《自动驾驶大模型---聊一聊特斯拉的FSD端到端系统

        接下来,笔者也会介绍“华大地魔”四家(华为已经介绍过,大疆/卓驭,地平线以及魔门塔)的端到端方案,本篇博客笔者主要讨论的是地平线在自动驾驶领域的研究进展

2 HSD

        在介绍HSD之前,我们先回顾下2023年地平线发表的CVPR最佳论文---UniAD。因为地平线并没有公布其详细架构内容,笔者只能根据多方面的信息进行推测,不足之处,欢迎讨论。

2.1 UniAD架构

​        如上图所示,UniAD 包含四个基于 Transformer 解码器的感知与预测模块,最终还配备一个规划器。查询向量(Queries,简称 Q)在该流程中起到连接作用,用于对驾驶场景中不同实体间的交互关系进行建模。整体UniAD的详细描述如下:

        首先将多相机图像序列输入特征提取器,得到的透视视图特征会通过 BEVFormer中现成的 BEV 编码器,转换为统一的鸟瞰图(bird’s-eye-view,简称 BEV)特征 B。需要说明的是,UniAD 并不局限于某一特定的 BEV 编码器,研究人员可采用其他替代方案,通过长时程时间融合或多模态融合提取更丰富的 BEV 表征。

        在 TrackFormer 模块中,被称为 “轨迹查询向量”(track queries)的可学习嵌入向量会从 BEV 特征 B 中查询智能体(agents,指交通参与者)信息,以实现对智能体的检测与跟踪。MapFormer 模块则将 “地图查询向量”(map queries)作为道路元素(如车道、隔离带)的语义抽象,对地图进行全景分割。

        借助上述分别代表智能体与地图的查询向量,MotionFormer 模块能够捕捉智能体与地图之间的交互关系,并预测每个智能体未来的行驶轨迹。由于场景中每个智能体的行为都可能对其他智能体产生显著影响,因此该模块会对所有纳入考虑的智能体进行联合预测。同时,设计了一个 “自车查询向量”(ego-vehicle query),用于对自车进行显式建模,使其能在这种以场景为中心的范式下与其他智能体进行交互。

        OccFormer 模块以 BEV 特征 B 作为查询向量,将智能体层面的知识作为键向量(keys)和值向量(values),在保留智能体身份信息的前提下,预测多步长的未来占用情况。

        最后,规划器(Planner)利用来自 MotionFormer 模块、具有丰富表达能力的自车查询向量来生成规划结果,并避开 OccFormer 模块预测的占用区域,从而避免碰撞。在不依赖高精地图(HD maps)或预定义路线的情况下进行规划,通常需要一个高层指令来指示行驶方向。基于此,将原始导航信号(即左转、右转和直行)转换为三个可学习的嵌入向量,称为 “指令嵌入向量”(command embeddings)。由于来自 MotionFormer 模块的自车查询向量已能表达自车的多模态意图,将其与指令嵌入向量相结合,形成 “规划查询向量”(plan query)。随后,通过注意力机制将规划查询向量与 BEV 特征 B 关联,使其能够感知周围环境,进而对该查询向量进行解码,得到未来的路径点(waypoints)。

2.2 HSD架构

        Horizon SuperDrive(简称HSD)搭载当前最强性能的国产智驾计算方案征程6P,采用一段式端到端技术架构,是国内首个软硬结合全栈开发的L2城区辅助驾驶系统。

(1)一端式端到端

        从其架构设计来看,UniAD 通过查询向量(Queries)将感知、预测与规划等多个环节串联成一个端到端的流程,实现了从多相机图像输入到最终规划结果输出的端到端处理。

        其以 BEV 特征为基础,通过 TrackFormer、MapFormer、MotionFormer、OccFormer 等模块依次完成智能体检测跟踪、地图全景分割、轨迹预测、占用预测等任务,最终由 Planner 模块生成规划结果,整个过程形成一个连贯的端到端 pipeline,无需依赖传统模块化架构中各环节的显式输出转换,符合一段式端到端架构的特征。

(2)HSD

        在所有的宣传中,笔者没有看到HSD中引入了LLM或者VLM,因此HSD很有可能是基于UniAD架构而来,这套架构和笔者之前推测的特斯拉的架构有一点像,有兴趣的朋友可以看看这篇博客:《自动驾驶大模型---聊一聊特斯拉的FSD端到端系统》。

  • 架构

        基于上述UniAD架构。

  • 训练
    • 世界模型
    • 强化学习

        世界模型用于生成数据,同时使用强化学习进行训练。(两者在之前其它车企大模型介绍的博客中做过详细介绍,这里就不赘述)

​2.3 表现

        “一段式端到端+强化学习”的领先架构是此次HSD升级的最大亮点。得益于真正的一段式端到端,HSD实现从光子输入到轨迹输出,保持超低时延,防御驾驶,横纵合一的丝滑,大幅提升辅助驾驶的安全性、高效性和舒适性。此外,通过引入强化学习机制,自我探索最大化激发模型潜力,HSD系统更是实现了堪比DeepSeek R1的"智能涌现"效应。

(1)系统低延时

        系统低延时带来迅捷的响应表现。例如在遇到临时施工区时,无需停顿就能快速生成解决方案,对死车等不可通行区域能果断选择智能绕行;具备拟人化行驶表现,在直角路口、连续直角路口、S型窄路、T字路口等视觉盲区场景,HSD能够主动降速,与人类驾驶员先观察再通行的驾乘体感一致;即便是环岛、掉头等静态场景,或是博弈绕行、施工区绕行等动静态叠加场景,都能保持行云流水般的连贯性。

(2)防御性驾驶

        能像专业司机一样驾驶,推动辅助驾驶迎来拟人化体验的拐点。

(3)强化学习

        通过自我探索最大化激发模型潜力,实现堪比DeepSeek R1的“智能涌现”效应,让系统在面对各种场景时能更好地自主应对。

​3 总结

        HSD基于2023年CVPR最佳论文UniAD的端到端方案,通过BEV特征提取、智能体跟踪、轨迹预测等模块实现光子输入到轨迹输出的全流程处理。该系统采用强化学习进行训练,具备低延时响应、拟人化驾驶和防御性驾驶等特点,能够智能应对复杂路况。相比传统模块化架构,HSD的一段式端到端设计显著提升了自动驾驶的安全性和舒适性。

        当然,在这两年的时间中,地平线也有可能在模型中加入了更多的元素,笔者会继续跟踪,比如今年CVPR发表的《Diffusion Drive》

参考文献:《UniAD: Planning-oriented Autonomous Driving》

Logo

更多推荐