铮铭个人主页

@hzm8341

铮铭

2023-03-01 18:34:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】OpenDriveVLA：基于大型视觉语言动作模型的端到端自动驾驶

传统上，自动驾驶技术依赖于模块化系统，这些系统将感知、预测和规划分离成不同的组件。虽然这种方法有效，但可能会导致模块之间的误差传播，并且难以应对需要综合推理的复杂场景。大型语言模型（LLM）和视觉语言模型（VLM）的最新进展已经显示出理解复杂场景和做出高级决策的潜力，但将它们直接应用于自动驾驶提出了重大挑战。图 1：OpenDriveVLA 模型的多阶段训练过程的概述，展示了如何通过分层特征对齐、

#自动驾驶 #人工智能 #机器学习

【论文阅读】OpenDriveVLA：基于大型视觉语言动作模型的端到端自动驾驶

#自动驾驶 #人工智能 #机器学习

【论文阅读】GR-2：用于机器人操作的生成式视频-语言-动作模型

开发能够理解自然语言指令并执行各种操作任务的机器人系统，仍然是人工智能和机器人领域的一项重大挑战。GR-2 (通用机器人代理 2) 通过将视频预训练与机器人动作生成相结合，以统一的模型架构，代表了该领域的重大进步。图 1：GR-2 的双重训练过程，展示了对各种人类活动的视频-语言预训练（左）和对机器人特定视频-语言-动作数据的微调（右）。GR-2 由字节跳动研究人员开发，建立在基础模型原则之上，这

#人工智能

【论文阅读】GR-2：用于机器人操作的生成式视频-语言-动作模型

#人工智能

【论文阅读】OpenVLA：一个开源的视觉-语言-动作模型

OpenVLA 代表着在使先进机器人AI更广泛地为研究社区所用方面迈出了重要一步。该论文介绍了一个70亿参数的视觉-语言-动作（VLA）模型，该模型能够使用自然语言指令和视觉观察来控制多个机器人实体。与现有最先进的闭源模型（如RT-2-X）不同，OpenVLA是完全开源的，提供了对模型权重、训练代码和微调过程的完整访问。图1：OpenVLA架构，展示了DINOv2和SigLIP视觉编码器融合后馈入

#开源

OpenMPI+CUDA实现并发计算

上面是实现的代码，可以保存为cu格式。

#linux #服务器 #windows

DINOv2+Qwen2.5-VL-2B+LoRA实现image caption的微调

本文的打算是一步步的实现Diffusion VLA的论文思路，之前用ResNet50提取图像特征，现在换成了DINOv2。

#深度学习 #python #机器学习

到底了