logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于开源Qwen2.5-VL实现自动驾驶VLM微调

微调后的模型被保存在 /home/hy/source/code/transformer/LLaMA-Factory/saves/Qwen2.5-VL-7B-Instruct/lora/train_2025-07-27-12-30-16 中, ui会显示loss进度和进度条。下面是图片 2022-07-14--14-32-55--11_first/0553.png 的一些对话. 对话内容在QA_fr

#自动驾驶#人工智能#机器学习
手把手教你用GRPO微调模型:从算法实现到训练全流程实战~

对模型进行微调,这里假定大家已经能够实现LoRA模型的微调,我们GRPO算法修改的参数也是Lora参数。对于一个prompt,我们生成num_samples个样本,分别计算其奖励,计算平均奖励作为基准值(替代价值函数),然后减去平均奖励,我们就能得到每个样本的优势函数,然后对其进行标准化。在介绍重要性采样之前,我们需要先计算一下序列的对数概率,只有这样,我们才能对不同的模型进行差异性比较。至此模型

最新综述:从物理仿真和世界模型中学习具身智能

随着人工智能与机器人技术的发展,智能体与物理世界的交互成为研究核心。具身智能强调通过与环境的物理交互实现感知、行动和认知,使机器人能基于物理世界反馈调整行为与认知,是通往通用智能的重要部分,其意义不止于物理任务执行,更通过感官输入、运动控制和认知处理的闭环整合,构成真正自主性和适应性的基础。:由 Cyberbotics Ltd. 于 1998 年推出,提供机器人建模、编程和仿真的集成框架,2018

#学习
自动驾驶大模型方案:视觉语言模型VLM工作一览,面向量产和研究~

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线视觉语言模型(Vision-Language Model, VLM) 正以其独特的跨模态理解与推理能力,成为赋能下一代自动驾驶系统的关键引擎。VLM的核心在于打通视觉与语言之间的壁垒,让自动驾驶不仅能“看见”道路,更能像人类一样“理解”场景、意图并进行深层次的推理。在自动驾驶的复杂环境中,VLM展现出强大的应用潜力:

#自动驾驶#语言模型#人工智能 +2
即将开课!做了一份3DGS的学习路线图,面向初学者......

所以本章节先从计算机图形学的基础讲起,三维空间的隐式表达和显式表达、渲染管线、光线追踪、辐射场渲染都是什么,这些技术概念和3DGS的联系是什么。整体上第二章的设计思路是带大家先打好基础,先详细梳理3DGS的原理部分及核心伪代码,接着讲解动态重建、表面重建、鱼眼重建和光线追踪的经典文章和最新的算法,由点及面层层深入。Chris:QS20 硕士,现任某Tier1厂算法专家,目前从事端到端仿真、多模态大

#3d#学习
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型

为了让同学们更好的理解和掌握自动驾驶VLA,第六章的大作业我们从网络构建开始,基于ms-swift框架,自定义数据集和加载模型,开启自己的训练任务并进行微调,并提供V-L-A各部分的代码解读以及可修改优化的demo。目前从事多模态感知、自动驾驶VLA、大模型Agent等前沿算法的预研,并已主持和完成多项自动驾驶感知和大模型框架工具,拥有丰富的自动驾驶、大模型研发和实战经验。目前从事在线建图感知、自

#自动驾驶#人工智能#机器学习
闭环训练终于补上了!AD-R1:世界模型端到端闭环强化学习新框架(澳门大学&理想等)

实验采用的数据集比例为80%的真实nuScenes数据与20%的合成反事实数据——该比例通过实证验证确定,既能提供充足的故障样本以修正乐观偏差,又不会显著偏离真实驾驶动态的模型先验。在AD-R1框架中,该公正世界模型作为内部评估器,使智能体能够在安全的离线环境中从“想象故障”中学习,最终大幅减少闭环仿真中的安全违规事件。为安全高效地获取该奖励信号,现有方法依赖外部仿真器,但如前文所述,这些仿真器存

国内首个3DGS全栈教程!2DGS/3DGS/4DGS/混合GS全搞定!

最近和不少刚接触自动驾驶的小伙伴聊了聊,发现很多同学都处在相对懵逼的阶段。怎么前两年还是BEV感知、3D目标检测、在线高精地图之类的方向,咋一年不到遍地都是端到端、大模型了。。。这些方向的算力要求实验室根本满足不了,有没有那种适合毕业科研并且算力要求比较低的方向?后面工作上也有应用场景?有!还真有!!!这个方向就是三维重建领域的3D Gaussian Splatting!相比于隐式神经网络的黑盒表

#3d
干货 | 基于深度强化学习的轨迹规划(附代码解读)

但本身为了进一步衡量舒适性/效率等指标,会利用专家数据(高质量的人类驾驶数据)+ 不太好的驾驶行为数据共同训练出一个reward-model,因为强化学习是利用reward来指导模型训练,而上述描述的任务本身是为了学习生成reward,这个过程刚好相反,故一般把这些任务叫做逆强化学习。假设一个智能体在执行时序任务时,其动作本身可分解成系列状态概率转移任务,比如时间戳t下自己的状态(s), 根据状态

等了大半年的Qwen3-VL终于也开源了!

采用Qwen3模型,可以是Dense模型,也可以是MoE模型,暂时开的Qwen3-VL-235B-A22B是MoE模型,位置编码MRoPE-Interleave,t,h,w 交错分布的形式,对长视频理解效果更好。抓着云栖大会,猛开源是吧,两天时间,开源了Qwen3-Omni系列模型、Qwen-Image-Edit-2509模型、Qwen3-VL模型、Qwen3Guard-Gen系列模型,共计12个

    共 1544 条
  • 1
  • 2
  • 3
  • 155
  • 请选择