点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

作者 | Zihang Wang等

编辑 | 自动驾驶之心

本文只做学术分享,如有侵权,联系删文

>>自动驾驶前沿信息获取自动驾驶之心知识星球

在越野机器人、无人车底盘、林地巡检与野外作业等场景中,感知与规划不仅要“能跑”,还要“说得清、解释得明、在恶劣环境下依然可靠”。然而,现有大模型驱动的自动驾驶理解方法大多面向规则清晰的城市场景,一旦进入无车道、无规则、传感器更容易退化的越野环境,系统就很容易在黑夜、雨雪、雾霾等条件下出现单模态失效,导致描述不稳、规划不准。

来自东南大学等机构的研究团队提出 Wild-Drive,首次将越野场景结构化描述路径规划统一到一个高效多模态大模型框架中:一边让模型用结构化语言解释当前环境,一边输出未来轨迹;同时借助 MoRo-Former 在摄像头、LiDAR、融合特征之间进行任务条件驱动的模态路由,在单模态退化时优先选择更可靠的信息源。这项工作不仅给出了一个可解释的“感知到规划”闭环,还同步构建了 OR-C2P Benchmark,为退化越野场景下的 caption-to-plan 研究提供了统一评测基准。

  • 论文标题:Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model

  • 作者团队:Zihang Wang, Xu Li, Benwu Wang, Wenkai Zhu, Xieyuanli Chen, Dong Kong, Kailin Lyu, Yinan Du, Yiming Peng, Haoyang Che

  • 核心关键词:越野自动驾驶、多模态大模型、场景描述、路径规划、模态路由、可解释规划

痛点直击:为什么“城市场景有效”的大模型,一到越野就容易掉链子?

现有自动驾驶大模型已经能在城市道路中完成视觉问答、场景描述甚至驾驶建议生成,但越野环境与城市环境有着本质差异:

1. 场景无规则、风险长尾,黑箱决策更难被信任

城市道路至少还有车道线、交通规则、目标类别先验;而越野环境中常常面对的是泥地、草地、砂石、积雪、树林边缘、临时障碍、可通行区域模糊等问题。单纯输出一条轨迹,并不能让人知道模型为什么这么走、是否忽略了风险。

2. 传感器退化更常见,固定融合策略不够稳

在越野场景下,夜晚、雾天、雨雪、强反光、泥水遮挡都会让相机或 LiDAR 其中一方明显退化。传统“无差别融合”的方式默认所有模态都可靠,一旦其中一个模态失真,反而会把错误信息带入后续决策。

3. 现有工作多做“描述”或“规划”其中之一,缺乏统一闭环

此前相关方法通常只做单模态 captioning,或者只做基于几何的规划,缺少一个能够同时完成以下内容的统一框架:

  • 结构化环境理解

  • 高层驾驶建议生成

  • 可执行未来轨迹预测

4. 越野领域缺少统一的 caption-to-plan 基准

如果没有标准化任务定义、标注模板和评测协议,很难系统回答:

  • 模型到底有没有真正理解天气、地形、障碍和可通行区域?

  • 文本解释是否真的帮助了规划?

  • 在模态退化下系统是否依然稳定?

核心问题总结: 越野自动驾驶需要的不是一个“更大的黑箱模型”,而是一个在退化感知条件下依然稳健、同时具备解释能力与规划能力的统一系统。

先看整体:Wild-Drive到底在做什么?

Wild-Drive 的整体思路非常清晰:
摄像头 + LiDAR 输入 → 任务驱动的模态路由与压缩 → 高效 LLM 生成结构化场景描述与规划 token → GRU 解码未来轨迹。

Wild-Drive 总体框架
Wild-Drive 总体框架

上图展示了论文中的整体流水线:前端分别用 DINOv3 提取图像特征、用 VoxelNet 提取 LiDAR BEV 特征;中间通过 MoRo-Former 按任务选择更可靠的模态专家并压缩成紧凑 scene tokens;后端使用轻量级 LLM 生成结构化场景答案,同时引入特殊的 planning token,最后由 GRU 解码器生成未来多模态轨迹。

这意味着 Wild-Drive 并不是“先 caption 再另接一个 planner”的松散拼接,而是把场景解释轨迹生成放进同一条条件化链路中,让语言理解真正成为规划的中间桥梁。

核心创新一:不是简单拼接多模态,而是让任务决定该信谁

论文中最关键的设计是 MoRo-Former(Modality Routing Transformer)。它不是像常规 Q-Former 那样把所有 query 一视同仁,而是明确意识到:

在越野环境中,不同任务、不同天气、不同照明条件下,真正可靠的模态并不相同。

例如:

  • 夜晚或强弱光条件下,地形可通行性障碍定位可能更依赖 LiDAR;

  • 当 LiDAR 回波稀疏或局部失效时,模型又需要更多借助相机纹理与外观信息;

  • 某些任务本身更适合融合特征,而另一些任务需要强调单一可靠模态。

MoRo-Former 模块
MoRo-Former 模块

MoRo-Former 的核心是三步:

1. 按任务分组查询

论文定义了 5 类任务:

  • 天气描述

  • 可通行区域判断

  • 地形通行性估计

  • 障碍物检测

  • 驾驶建议

每类任务分配一组可学习 query,并通过 group embedding 降低任务间干扰。这样,模型不是把“所有问题”混在一起理解,而是为每类越野决策问题保留独立感知通道。

2. 引入局部感知的模态路由

对于需要模态选择的任务,query 会关联 3D 参考点,并被投影到 LiDAR BEV 和图像平面,只关注局部窗口内的信息。随后路由器预测该 query 更应该交给:

  • LiDAR expert

  • Camera expert

  • Fusion expert

在推理阶段采用硬路由,也就是每个 query 只保留被选中的专家输出,从而避免“坏模态把好模态拖下水”。

3. 做完路由后再压缩 token

路由后的任务 token 会进一步压缩,再送入 LLM。这样既提升了有效信息密度,也减轻了轻量级 LLM 的输入负担。

这套设计破解了越野场景中的一个核心矛盾:不是所有模态都该永远被同等对待,而应该让任务和环境共同决定“此刻最该信谁”。

核心创新二:让轻量 LLM 真正服务于越野解释,而不是生成冗长自由文本

很多人一提到 LLM,就会自然想到开放式长文本生成。但 Wild-Drive 反而走了一个很务实的方向:

不追求“会说很多”,而追求“说得稳定、说得结构化、说得对规划有用”。

为适配轻量级 LLM 的容量,论文专门设计了结构化 Q&A 模板,把复杂越野理解问题压缩为有限标签空间:

  • Weather:天气 + 光照联合标签

  • Drivable:可通行状态 + 粗粒度方向

  • Terrain traversability:地形类型 + 通行难度

  • Obstacle detection:障碍类别 + 粗粒度方位 + 距离

  • Driving suggestion:直行 / 左转 / 右转 / 停车

这样的好处有三层:

1. 训练更稳

相比完全自由生成,闭集模板更容易对齐监督,也更适合 0.5B / 3B 量级的轻量模型学习。

2. 评测更准

结构化输出可以直接用统一协议统计 captioning 性能,也更容易分析不同模块到底错在天气、障碍还是可通行性判断。

3. 更适合下游规划调用

规划器并不需要华丽修辞,它需要的是天气、地形、障碍、驾驶建议这些可以直接转化为决策约束的中间变量。Wild-Drive 让语言真正成为可执行规划的“接口层”。

核心创新三:把“解释”接进“规划”,形成可审计的 caption-to-plan 闭环

Wild-Drive 的另一个亮点,是没有止步于场景解释,而是进一步把 LLM 输出的 planning token 送入 GRU 轨迹解码器,直接生成未来轨迹点。

Wild-Drive 在退化场景下的定性结果
Wild-Drive 在退化场景下的定性结果

从论文可视化结果可以看到,模型不仅会给出结构化解释,比如:

  • foggy, dusk

  • gravel, easy

  • clear / blocked

  • go straight / turn left / stop

还会同时给出对应未来轨迹。这里最重要的不是“多做了一个任务”,而是完成了下面这件事:

让规划结果拥有显式中间语义解释。

这意味着系统做出某条轨迹时,我们可以追问:

  • 它是否认为前方被障碍阻挡?

  • 它是否判断当前地形可通过?

  • 它为什么建议停车而不是转向?

对于越野机器人和野外无人系统来说,这种“可审计”能力非常关键,因为部署环境复杂、人工接管成本高、错误代价大。

核心创新四:不仅提出方法,还构建了 OR-C2P 基准

为了系统训练和评测这类任务,论文进一步构建了 OR-C2P(Off-Road Caption-to-Plan)Benchmark。这部分其实和方法本身一样重要,因为它为后续研究提供了统一参照系。

数据规模与组成

OR-C2P 基于 ORAD-3D 构建,包含:

  • 144 条序列 / 57,808 帧

  • 5 类天气

  • 4 类光照

  • 10 类地形

  • 19,527 帧含障碍样本

  • 训练 / 验证 / 测试分别为 100 / 15 / 29 条序列

同时,作者还采集了一个 SC(Self-Collected) 数据集,用于真实场景零样本泛化评估,轨迹超过 4 km。

标注方式很讲究:伪标签 + 几何修正 + 人工抽检

为了降低大规模标注成本,论文使用 Qwen2.5-VL-72B 生成初始监督,再结合相机与 LiDAR 进行后处理,并加入随机人工验证。这种方案兼顾了规模与质量,也很适合今后拓展到更多越野任务。

实验结果:不仅能讲,还真能打

1. 场景描述性能:小模型也能超过更大的基线

OR-C2P / SC 上的 captioning 结果
OR-C2P / SC 上的 captioning 结果

在 OR-C2P 和 SC 数据集上,Wild-Drive 与 Mini-GPT4、LLaVA1.5、InstructBLIP、LLaMA-AdapterV2、LiDAR-LLM、BEV-LLM 等方法进行了对比。

最亮眼的结果有两个:

  • Wild-Drive-3B 在 OR-C2P 上取得最优结果:

    • BLEU-1 = 71.72

    • BLEU-2 = 60.79

    • BLEU-4 = 49.26

    • BERT-P = 98.13

  • Wild-Drive-0.5B 仅 0.71B 参数,却依然表现非常强:

    • BLEU-1 达到 69.72,已经超过 LiDAR-LLM 的 68.04

    • BERT-P 达到 95.79

这说明 Wild-Drive 的提升并不只是“大模型参数堆出来”的,而是得益于MoRo-Former 的路由与压缩机制,让输入给 LLM 的信息更干净、更对任务有用

2. 路径规划性能:统一框架下依然具有竞争力

在 OR-C2P 的路径规划任务上,Wild-Drive 获得:

  • FDE = 1.09

  • minADE = 0.66

相比同样基于 LLM 的 BEV-LLM-GRU,分别改善了 0.24 和 0.31。虽然与专用规划器 TopoPath 相比仍有差距,但在一个统一的“解释 + 规划”框架里做到这一水平,已经很有说服力。

3. 消融研究:不是“堆模块”,每个部件都在发挥作用

消融实验显示:

  • 去掉相机或 LiDAR 任一分支,性能都会明显下降;

  • 将 MoRo-Former 替换为标准 Q-Former 后,BLEU 和 BERT-score 均显著下降;

  • 说明越野 captioning 的关键不是简单多模态输入,而是面向模态不确定性的任务驱动路由机制

4. 运行效率:兼顾部署潜力

论文给出两种 LLM 配置:

  • Wild-Drive-0.5B:平均延迟 1.271 s/sample,4-bit 量化后降至 0.542 s

  • Wild-Drive-3B:平均延迟 4.075 s/sample,4-bit 量化后降至 1.653 s

作者还在车载计算机上的 RTX 2080Ti 进行了测试,非量化条件下平均运行时间比 RTX 4090 平台高 **37%**。这说明 Wild-Drive 并不是一个只适合离线演示的大模型系统,而是已经开始触及实际部署的效率边界。

为什么这篇工作值得关注?

从研究价值上看,Wild-Drive 的意义不只是“又做了一个多模态 LLM for driving”,而是把几个原本割裂的问题连成了闭环:

1. 把越野解释从“附属展示”变成规划中间变量

很多工作把 caption 当作 demo 展示,而 Wild-Drive 让结构化描述直接参与轨迹生成,这让解释首次真正对行动产生约束。

2. 把模态鲁棒性问题提升到任务选择层面

它没有继续沿着“更复杂融合模块”的老路堆结构,而是提出一个更本质的问题:在当前条件下,哪个模态更值得信?

3. 为退化越野场景提供了统一 benchmark

OR-C2P 的出现,为后续研究提供了一个可以围绕 captioning、reasoning、planning 一体化展开的公共评测平台。

4. 证明轻量 LLM 也能在具身系统中发挥作用

Wild-Drive 并没有依赖超大参数模型,而是通过合理的任务结构化与信息压缩,让 0.5B/3B 量级模型也能做出有竞争力的越野理解与规划。

当然,它也还没有走到终点

这篇工作的边界同样很清晰:

  • 当前规划头仍以 GRU 为主,和专用轨迹规划器相比还有进一步提升空间;

  • 任务模板虽然稳定,但标签空间仍然偏离散,未来可以探索更丰富的层级语义;

  • 目前聚焦 camera + LiDAR,未来仍有机会引入更多传感器、地图先验或时序记忆;

  • 在真实复杂野外场景中的闭环在线部署,还需要更全面的系统级验证。

不过,这些局限并不妨碍 Wild-Drive 成为一个非常值得关注的方向性工作。它已经证明:

越野自动驾驶并不一定只能在“黑箱感知 + 黑箱规划”中前进。借助结构化语言解释、任务驱动模态路由和轻量级大模型,系统完全有机会同时做到更稳、更可解释,也更接近真实部署。

总结:Wild-Drive开启了退化越野场景下“可解释 caption-to-plan”的新范式

如果用一句话概括这篇论文,那就是:

Wild-Drive 不是简单把大模型搬到越野场景,而是围绕“退化环境下如何可靠理解、解释并规划”这个核心命题,构建了一个从多模态感知到语言解释再到轨迹生成的统一闭环。

它的核心贡献可以概括为三点:

  • 方法层面:提出基于任务条件模态路由的 Wild-Drive 框架,用 MoRo-Former 在退化环境中自适应选择可靠模态;

  • 基准层面:构建 OR-C2P Benchmark,统一越野 captioning 与 planning 的训练评估协议;

  • 实验层面:在结构化场景描述、规划性能、泛化能力和运行效率上都展示出较强竞争力。

对于具身智能、移动机器人、越野无人平台和可解释自动驾驶研究来说,Wild-Drive 的价值在于:它不再把“看懂场景”和“做出动作”视为两条平行线,而是让二者通过结构化语言与规划 token 真正打通。这种思路,可能正是未来复杂野外自主系统走向可信部署的重要一步。

自动驾驶之心

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐