logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型

为了让同学们更好的理解和掌握自动驾驶VLA,第六章的大作业我们从网络构建开始,基于ms-swift框架,自定义数据集和加载模型,开启自己的训练任务并进行微调,并提供V-L-A各部分的代码解读以及可修改优化的demo。目前从事多模态感知、自动驾驶VLA、大模型Agent等前沿算法的预研,并已主持和完成多项自动驾驶感知和大模型框架工具,拥有丰富的自动驾驶、大模型研发和实战经验。目前从事在线建图感知、自

#自动驾驶#人工智能#机器学习
闭环训练终于补上了!AD-R1:世界模型端到端闭环强化学习新框架(澳门大学&理想等)

实验采用的数据集比例为80%的真实nuScenes数据与20%的合成反事实数据——该比例通过实证验证确定,既能提供充足的故障样本以修正乐观偏差,又不会显著偏离真实驾驶动态的模型先验。在AD-R1框架中,该公正世界模型作为内部评估器,使智能体能够在安全的离线环境中从“想象故障”中学习,最终大幅减少闭环仿真中的安全违规事件。为安全高效地获取该奖励信号,现有方法依赖外部仿真器,但如前文所述,这些仿真器存

国内首个3DGS全栈教程!2DGS/3DGS/4DGS/混合GS全搞定!

最近和不少刚接触自动驾驶的小伙伴聊了聊,发现很多同学都处在相对懵逼的阶段。怎么前两年还是BEV感知、3D目标检测、在线高精地图之类的方向,咋一年不到遍地都是端到端、大模型了。。。这些方向的算力要求实验室根本满足不了,有没有那种适合毕业科研并且算力要求比较低的方向?后面工作上也有应用场景?有!还真有!!!这个方向就是三维重建领域的3D Gaussian Splatting!相比于隐式神经网络的黑盒表

#3d
干货 | 基于深度强化学习的轨迹规划(附代码解读)

但本身为了进一步衡量舒适性/效率等指标,会利用专家数据(高质量的人类驾驶数据)+ 不太好的驾驶行为数据共同训练出一个reward-model,因为强化学习是利用reward来指导模型训练,而上述描述的任务本身是为了学习生成reward,这个过程刚好相反,故一般把这些任务叫做逆强化学习。假设一个智能体在执行时序任务时,其动作本身可分解成系列状态概率转移任务,比如时间戳t下自己的状态(s), 根据状态

等了大半年的Qwen3-VL终于也开源了!

采用Qwen3模型,可以是Dense模型,也可以是MoE模型,暂时开的Qwen3-VL-235B-A22B是MoE模型,位置编码MRoPE-Interleave,t,h,w 交错分布的形式,对长视频理解效果更好。抓着云栖大会,猛开源是吧,两天时间,开源了Qwen3-Omni系列模型、Qwen-Image-Edit-2509模型、Qwen3-VL模型、Qwen3Guard-Gen系列模型,共计12个

图解Qwen3-VL多模态模型

从上图可知,pixel通过Qwen3VLVisionPatchEmbed将图片转为hidden_states,而 Qwen3VLVisionPatchEmbed则通过一个3维卷积来实现,然后将图片hidden_states信息(注意:图片patch为16)和位置编码结合,整合之后给到Qwen3VLVisionBlock模块,这个模块是一个Attention模块,它具有27层,具体的实现可以看下图。

IROS‘25冠军方案:X-VLA重磅开源,全面刷新机器人SOTA!

X-VLA是首个实现120min无辅助自主叠衣任务的全开源模型(公开数据、代码与参数),以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录,同时,基于X-VLA的解决方案在IROS-AGIBOT World Challenge上大放异彩,夺得冠军。该策略在保证信息完整性的前提下,优化了计算资源的分配,提升了模型的信息处理通量。在真实的机器人平台上,X-VLA在大量简单抓取和桌面操作任务中展现

放榜了!NeurIPS 2025论文汇总(自动驾驶/大模型/具身/RL等)

NeurIPS 2025放榜了!自动驾驶之心着手汇总了中稿的相关工作,目前涉及自动驾驶、视觉感知推理、大模型训练、具身智能、强化学习、视频理解、代码生成等等方向!后续的论文更新也会第一时间上传至『自动驾驶之心知识星球』~自动驾驶前沿信息一手获取!单位:水牛城大学、中科院等。单位:清华AIR、北航等。单位:英伟达、台湾大学。单位:DeepMind。图像/视频生成与编辑。

#自动驾驶#人工智能#机器学习
Tesla终于分享点东西了,世界模型和闭环评测都强的可怕......

重磅来了,基于world model的simulator,真实场景弄出来,然后通过action生成后续的视频,几年前的活这个还有点难,但是看现在sora2的表现,这个方案看起来确实是可行的,这里壁垒很高。简单的说就是我输入了一大堆token,但是我的监督信号就一个动作,这么大的网络和输入,神经网络能够找到太多的shortcut来拟合了,你如何保证其真正理解了驾驶行为呢?这一套其实也能想到,就是你会

TeraSim World:用开源方式重建「特斯拉式」世界模型

特斯拉的世界模型是一个神经网络驱动的虚拟世界生成器,它能根据车辆的状态和控制输入(转向、油门、刹车)实时合成八个摄像头视角的高分辨率视频。它在开源条件下实现了与特斯拉世界模型同级的生成与评测能力,并进一步突破了特斯拉的设定——无需真实地图或传感器背景,整个城市环境与交通行为都由AI自动生成,从而构建出一个完全数据驱动、可复现、可扩展的世界模型平台。迄今唯一的自动驾驶测试封面论文。如下的视频展示了数

    共 1539 条
  • 1
  • 2
  • 3
  • 154
  • 请选择