
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Hint-AD提出了一种新型端到端自动驾驶语言系统,通过自然语言增强模型可解释性。该框架整合感知-预测-规划模块的中间查询token,经整体令牌混合器处理后输入语言解码器,实现与AD模型的整体对齐。实验表明,在驾驶解释、3D密集描述等任务中性能显著提升(CIDEr指标最高提升185%),同时发布了Nu-X标注数据集。尽管该方案在可解释性方面取得突破,但量产部署面临算力消耗增加的挑战。研究为平衡模型

端到端自动驾驶技术与机器人技术存在深度的双向影响关系。自动驾驶早期大量借鉴了机器人的传感器技术、SLAM算法、路径规划算法(如A*和Dijkstra)及中间件系统(如ROS)。近年来,随着自动驾驶技术的数据驱动范式成熟,这种端到端AI方法正反向赋能机器人领域,特别是解决传统机器人在通用性和智能化方面的不足。自动驾驶的感知算法、规划架构、硬件成本优化及仿真工具等创新,为通用机器人提供了重要参考。两者

Hint-AD提出了一种新型端到端自动驾驶语言系统,通过自然语言增强模型可解释性。该框架整合感知-预测-规划模块的中间查询token,经整体令牌混合器处理后输入语言解码器,实现与AD模型的整体对齐。实验表明,在驾驶解释、3D密集描述等任务中性能显著提升(CIDEr指标最高提升185%),同时发布了Nu-X标注数据集。尽管该方案在可解释性方面取得突破,但量产部署面临算力消耗增加的挑战。研究为平衡模型

OpenDriveVLA 通过端到端架构和多模态大模型,为自动驾驶提供了一种更高效、泛化的解决方案。其核心价值在于将语言模型的推理能力与视觉感知深度融合,突破了传统模块化系统的局限性。尽管在算力、数据隐私等方面仍需突破,但该研究为行业指明了 “感知 - 推理 - 决策” 一体化的未来方向,有望推动自动驾驶从 “功能实现” 向 “类人智能” 跨越。

OpenDriveVLA 通过端到端架构和多模态大模型,为自动驾驶提供了一种更高效、泛化的解决方案。其核心价值在于将语言模型的推理能力与视觉感知深度融合,突破了传统模块化系统的局限性。尽管在算力、数据隐私等方面仍需突破,但该研究为行业指明了 “感知 - 推理 - 决策” 一体化的未来方向,有望推动自动驾驶从 “功能实现” 向 “类人智能” 跨越。

本文探讨了自动驾驶中语音指令如何通过大模型实现车辆控制。首先介绍理想等多家车企的VLA大模型应用现状。随后详细解析语音控车流程:VLA模型通过整合摄像头、定位等多源数据,经视觉编码器、LLM和解码器处理后输出控制轨迹。重点对比了早期固定接口式语音控制与大模型时代的自然语言处理差异,并以限速15kph;指令为例说明文本特征到运动轨迹的转换机制。最后引用案例,说明其停车场自主寻路功能已突破固定指令限制

加州理工学院团队研发的ATMO地空两用机器人,采用创新设计实现0.3秒快速形态转换。研究对比了强化学习(RL)与模型预测控制(MPC)策略:RL在极限工况下表现更优(最大着陆倾角65°、抗干扰能力强),而MPC姿态控制更精准(±3°滚转振荡)。实验显示RL在推进器故障时仍能稳定着陆,但存在通信延迟敏感问题。该成果发表于IROS2025,为多模态机器人控制提供了新思路,未来可应用于物流、救援等领域。

阿里高德地图团队提出AutoDrive-R²VLA大模型,通过思维链与强化学习提升自动驾驶的推理与自反思能力。该模型基于Qwen2.5-VL构建,采用两阶段训练:先在自建nuScenesR²-6K数据集(含6000个带推理步骤的样本)进行监督微调,再结合物理奖励框架优化轨迹生成。在nuScenes和Waymo数据集测试中,模型在轨迹精确度和合理性上超越现有方法,但输出轨迹仍较粗糙,需进一步优化控制

本文提出DriveTransformer,一种创新的端到端自动驾驶框架。该模型采用并行任务查询机制,通过任务自注意力、传感器交叉注意力和时间交叉注意力实现流式、并行和稀疏的Token交互,解决了传统方法中误差累积和计算挑战等问题。实验表明,DriveTransformer在bench2drive和nuscenes基准上均达到SOTA性能,支持目标检测、运动预测、在线建图和规划等任务,显著提升了自动

特斯拉已开始向车主推送(有监督)完全自动驾驶(FSD)v14 版本更新,这是该系统时隔一年推出的首次重大更新。FSD v14 的研发借鉴了特斯拉在RobotTaxi中的经验,并将相关技术整合到面向普通消费者的车辆软件中。








