logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】OpenDriveVLA:基于大型视觉语言动作模型的端到端自动驾驶

传统上,自动驾驶技术依赖于模块化系统,这些系统将感知、预测和规划分离成不同的组件。虽然这种方法有效,但可能会导致模块之间的误差传播,并且难以应对需要综合推理的复杂场景。大型语言模型(LLM)和视觉语言模型(VLM)的最新进展已经显示出理解复杂场景和做出高级决策的潜力,但将它们直接应用于自动驾驶提出了重大挑战。图 1:OpenDriveVLA 模型的多阶段训练过程的概述,展示了如何通过分层特征对齐、

#自动驾驶#人工智能#机器学习
【论文阅读】OpenDriveVLA:基于大型视觉语言动作模型的端到端自动驾驶

传统上,自动驾驶技术依赖于模块化系统,这些系统将感知、预测和规划分离成不同的组件。虽然这种方法有效,但可能会导致模块之间的误差传播,并且难以应对需要综合推理的复杂场景。大型语言模型(LLM)和视觉语言模型(VLM)的最新进展已经显示出理解复杂场景和做出高级决策的潜力,但将它们直接应用于自动驾驶提出了重大挑战。图 1:OpenDriveVLA 模型的多阶段训练过程的概述,展示了如何通过分层特征对齐、

#自动驾驶#人工智能#机器学习
【论文阅读】GR-2:用于机器人操作的生成式视频-语言-动作模型

开发能够理解自然语言指令并执行各种操作任务的机器人系统,仍然是人工智能和机器人领域的一项重大挑战。GR-2 (通用机器人代理 2) 通过将视频预训练与机器人动作生成相结合,以统一的模型架构,代表了该领域的重大进步。图 1:GR-2 的双重训练过程,展示了对各种人类活动的视频-语言预训练(左)和对机器人特定视频-语言-动作数据的微调(右)。GR-2 由字节跳动研究人员开发,建立在基础模型原则之上,这

#人工智能
【论文阅读】GR-2:用于机器人操作的生成式视频-语言-动作模型

开发能够理解自然语言指令并执行各种操作任务的机器人系统,仍然是人工智能和机器人领域的一项重大挑战。GR-2 (通用机器人代理 2) 通过将视频预训练与机器人动作生成相结合,以统一的模型架构,代表了该领域的重大进步。图 1:GR-2 的双重训练过程,展示了对各种人类活动的视频-语言预训练(左)和对机器人特定视频-语言-动作数据的微调(右)。GR-2 由字节跳动研究人员开发,建立在基础模型原则之上,这

#人工智能
【论文阅读】OpenVLA:一个开源的视觉-语言-动作模型

OpenVLA 代表着在使先进机器人AI更广泛地为研究社区所用方面迈出了重要一步。该论文介绍了一个70亿参数的视觉-语言-动作(VLA)模型,该模型能够使用自然语言指令和视觉观察来控制多个机器人实体。与现有最先进的闭源模型(如RT-2-X)不同,OpenVLA是完全开源的,提供了对模型权重、训练代码和微调过程的完整访问。图1:OpenVLA架构,展示了DINOv2和SigLIP视觉编码器融合后馈入

#开源
OpenMPI+CUDA实现并发计算

上面是实现的代码,可以保存为cu格式。

文章图片
#linux#服务器#windows
DINOv2+Qwen2.5-VL-2B+LoRA实现image caption的微调

本文的打算是一步步的实现Diffusion VLA的论文思路,之前用ResNet50提取图像特征,现在换成了DINOv2。

文章图片
#深度学习#python#机器学习
到底了