
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了一种新型自动驾驶模型BEVDriver,该模型结合大型语言模型(LLM)的推理能力和鸟瞰图(BEV)特征的空间表示,实现端到端闭环驾驶。BEVDriver通过BEV编码器融合多视角图像和激光雷达点云,并利用LLM生成未来轨迹点。实验结果表明,BEVDriver在LangAuto基准测试中表现优异,驾驶分数比现有最优方法高出35.1%。该模型在开环评估和泛化能力方面也优于其他方法,但在处理

本文介绍了一种基于大型视觉语言模型(LVLM)的自动驾驶多任务交互框架DriveMonkey。该研究由小米汽车与华中科技大学联合开发,通过增强LVLM的时空推理能力、引入交互提示工程和多任务适应策略,解决了现有模型在动态场景理解、任务多样性处理和实时性等方面的不足。DriveMonkey结合类LLaVA架构的多模态大语言模型与3D空间处理器,有效整合了文本与视觉信息。实验结果表明,该框架在区域描述

本文介绍了一种基于大型视觉语言模型(LVLM)的自动驾驶多任务交互框架DriveMonkey。该研究由小米汽车与华中科技大学联合开发,通过增强LVLM的时空推理能力、引入交互提示工程和多任务适应策略,解决了现有模型在动态场景理解、任务多样性处理和实时性等方面的不足。DriveMonkey结合类LLaVA架构的多模态大语言模型与3D空间处理器,有效整合了文本与视觉信息。实验结果表明,该框架在区域描述

作者结合自身研究经历,从RBF神经网络到现代AI应用,阐释了神经网络的学习与记忆机制。神经网络通过权重调整(长期记忆)、激活状态(短期记忆)及特殊结构(如RNN、Transformer)实现信息处理。以GPT为例,其长期记忆存储于预训练权重中,工作记忆依托上下文窗口,短期记忆则通过激活值传递信息。这种记忆机制本质上是统计性、关联性的模式存储,不同于计算机的精确存储,更接近生物记忆特性。

论文提出SOLVE模型,创新性地融合视觉语言大模型(VLM)与端到端自动驾驶系统,通过轨迹思维链(T-CoT)和时间解耦策略实现视觉感知与自然语言指令的协同。该系统采用视觉编码器、语言编码器和跨模态注意力融合模块,能理解"施工绕行"等复杂指令,并通过模仿学习优化控制决策。实验以L2距离为指标验证了方案有效性,为解决传统自动驾驶在长尾场景下的局限提供了新思路。

Hint-AD提出了一种新型端到端自动驾驶语言系统,通过自然语言增强模型可解释性。该框架整合感知-预测-规划模块的中间查询token,经整体令牌混合器处理后输入语言解码器,实现与AD模型的整体对齐。实验表明,在驾驶解释、3D密集描述等任务中性能显著提升(CIDEr指标最高提升185%),同时发布了Nu-X标注数据集。尽管该方案在可解释性方面取得突破,但量产部署面临算力消耗增加的挑战。研究为平衡模型

本文探讨了将大语言模型(LLM)与传统A路径规划算法结合的创新方法LLM-A。传统A*算法在动态环境和复杂语义处理中存在效率低下问题,而LLM虽然具有语义理解优势,却缺乏精确空间推理能力。研究提出利用LLM生成语义启发式函数、处理动态约束并优化增量搜索,实验表明该方法在路径质量、计算效率和动态适应性方面优于传统算法。这种跨领域结合为路径规划提供了新思路,尽管实际应用价值仍需验证,但展现了人工智能技

特斯拉FSD系统或将与xAI的Grok结合,带来三大提升:Grok强大的推理能力可增强FSD对复杂环境的理解与决策;其自然交互特性将优化人车对话体验;快速学习能力还能加速FSD迭代。目前Grok预计运行在车机芯片上,与HW平台上的FSD形成互补。若成功实现模型融合,这一组合有望显著提升特斯拉在自动驾驶领域的竞争力,特别是在文字/图片标识理解等薄弱环节。这标志着特斯拉自动驾驶技术向更智能、更人性化方

苹果在库克领导下实现了显著增长,产品线从iPhone拓展至Apple Watch、AirPods等,营收从2011年的285亿美元增至2021年的3658亿美元,服务收入占比提升至18%。2025财年第三财季,苹果营收达940亿美元,同比增长10%,iPhone和服务业务表现强劲,但iPad和可穿戴设备收入下滑。尽管整体增长趋缓,库克强调将加大AI投资,计划推出更智能的Siri,以推动下一阶段增长

BEVGPT提出了一种基于生成式预训练Transformer的自动驾驶统一框架,将预测、决策和运动规划整合到单一模型中。该框架仅以鸟瞰图(BEV)作为输入,采用两阶段训练:先通过大规模数据预训练因果Transformer获得场景预测能力,再通过在线微调优化运动规划。实验表明,该模型在Lyft Level5数据集上100%决策指标和66%运动规划指标优于现有方法,并能实现6秒长期场景预测。创新点包括
