
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
复现 π0.5、π0-FAST、π0

本文介绍了基于SITI数据集的视觉语言模型微调方法。SITI数据集包含8,068组图像和视频问答对,涵盖6大空间智能任务类别。文章详细说明了数据格式转换流程:将原始JSON转换为LLaMAFactory兼容的SFT格式,包括路径标准化、标记生成和质量校验。针对图像和视频数据分别提供了转换代码,生成包含绝对路径和标准化问答格式的训练文件。最后介绍了使用LLaMAFactory进行LoRA微调的具体步

本文介绍了基于SITI数据集的视觉语言模型微调方法。SITI数据集包含8,068组图像和视频问答对,涵盖6大空间智能任务类别。文章详细说明了数据格式转换流程:将原始JSON转换为LLaMAFactory兼容的SFT格式,包括路径标准化、标记生成和质量校验。针对图像和视频数据分别提供了转换代码,生成包含绝对路径和标准化问答格式的训练文件。最后介绍了使用LLaMAFactory进行LoRA微调的具体步

本文系统分析了当前主流的空间智能评估基准(VSI-Bench、SITE-Bench、SAT等),从核心数据、任务类型、数据规模等维度进行对比。这些基准主要测试多模态模型的空间感知与推理能力,涵盖构型、测量、时空推理等任务类型。其中VSI-Bench基于真实室内视频,评估模型的三维空间记忆能力;SAT采用程序化合成数据;SITE-Bench整合多源数据规模最大。各基准在数据模态(图像/视频)、认知层

Dream-VLA:基于扩散建模的视觉语言动作模型 Dream-VLA是一种创新的扩散基视觉语言动作(VLA)模型,通过双向注意力机制实现视觉与文本特征的深度融合,并具备原生支持动作分块和并行生成的能力。该模型采用四层架构设计,从扩散输入层到应用场景层,逐步实现多模态理解与动作规划。其核心技术包括:复用扩散骨干保持一致性、视觉编码器与文本特征融合、三阶段训练范式等。实验表明,Dream-VLA在V

本文分享SMOKE的模型推理,和可视化结果。以kitti数据集为例子,对训练完的模型进行推理,并可视化3D框的结果,画到图像中。

OpenVLA是一种创新的视觉语言动作(VLA)模型,通过自回归离散token预测实现机器人控制。其核心技术包括双视觉编码器(DINOv2+SigLIP)融合空间与语义特征,以及将连续动作离散化为256个token的自回归预测机制。模型基于Prismatic-7B VLM架构,采用Llama 2 7B作为骨干网络,通过970k机器人数据训练,显著提升了泛化能力。关键创新包括参数高效微调(LoRA)

苹果团队提出的FastVLM通过创新的FastViTHD混合编码器解决了高分辨率视觉语言模型(VLM)的效率问题。该模型采用5阶段混合架构,前3阶段使用RepMixer块进行局部特征提取,后2阶段采用自注意力机制捕捉全局依赖,通过渐进式下采样将视觉token减少16倍。相比传统ViT-L/14模型,FastVLM在保持同等性能(38项任务平均66.3分)的同时,模型尺寸缩小2.4倍,推理速度提升6

前言最近看了北京理工大学的课程《智能车辆概述与应用》,感觉入门角度讲的还不错的,于是通过本文记录关键内容。背景随着计算机视觉的发展,视觉在定位导航中的得到应用;其中相关技术包括视觉里程计VO、视觉SLAM。视觉里程计VO:关注两帧图像之间的位姿关系;一般不存储历史数据,只对当前或局部帧之间的位姿关系;往往忽视全局的一致性;运算速度快。视觉SLAM:计算当前帧(或局部帧) 和 具有历史数据地图的位姿

本文分享如何使用docker获取Nvidia 镜像,包括cuda10、cuda11等不同版本,cudnn7、cudnn8等,快速搭建深度学习环境。








