logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

空间理解 SITI 数据集 | 格式转换 | Lora微调 | VLM 大模型

本文介绍了基于SITI数据集的视觉语言模型微调方法。SITI数据集包含8,068组图像和视频问答对,涵盖6大空间智能任务类别。文章详细说明了数据格式转换流程:将原始JSON转换为LLaMAFactory兼容的SFT格式,包括路径标准化、标记生成和质量校验。针对图像和视频数据分别提供了转换代码,生成包含绝对路径和标准化问答格式的训练文件。最后介绍了使用LLaMAFactory进行LoRA微调的具体步

文章图片
空间理解 SITI 数据集 | 格式转换 | Lora微调 | VLM 大模型

本文介绍了基于SITI数据集的视觉语言模型微调方法。SITI数据集包含8,068组图像和视频问答对,涵盖6大空间智能任务类别。文章详细说明了数据格式转换流程:将原始JSON转换为LLaMAFactory兼容的SFT格式,包括路径标准化、标记生成和质量校验。针对图像和视频数据分别提供了转换代码,生成包含绝对路径和标准化问答格式的训练文件。最后介绍了使用LLaMAFactory进行LoRA微调的具体步

文章图片
空间智能 | 基线 对比汇总 | 数据集

本文系统分析了当前主流的空间智能评估基准(VSI-Bench、SITE-Bench、SAT等),从核心数据、任务类型、数据规模等维度进行对比。这些基准主要测试多模态模型的空间感知与推理能力,涵盖构型、测量、时空推理等任务类型。其中VSI-Bench基于真实室内视频,评估模型的三维空间记忆能力;SAT采用程序化合成数据;SITE-Bench整合多源数据规模最大。各基准在数据模态(图像/视频)、认知层

文章图片
《VLA 系列》Dream-VLA | 扩散建模 | 连续动作 | VLA

Dream-VLA:基于扩散建模的视觉语言动作模型 Dream-VLA是一种创新的扩散基视觉语言动作(VLA)模型,通过双向注意力机制实现视觉与文本特征的深度融合,并具备原生支持动作分块和并行生成的能力。该模型采用四层架构设计,从扩散输入层到应用场景层,逐步实现多模态理解与动作规划。其核心技术包括:复用扩散骨干保持一致性、视觉编码器与文本特征融合、三阶段训练范式等。实验表明,Dream-VLA在V

文章图片
单目3D目标检测——SMOKE 模型推理 | 可视化结果

本文分享SMOKE的模型推理,和可视化结果。以kitti数据集为例子,对训练完的模型进行推理,并可视化3D框的结果,画到图像中。

文章图片
#3d#目标检测
《VLA 系列》OpenVLA | 自回归预测 | 离散token | VLA

OpenVLA是一种创新的视觉语言动作(VLA)模型,通过自回归离散token预测实现机器人控制。其核心技术包括双视觉编码器(DINOv2+SigLIP)融合空间与语义特征,以及将连续动作离散化为256个token的自回归预测机制。模型基于Prismatic-7B VLM架构,采用Llama 2 7B作为骨干网络,通过970k机器人数据训练,显著提升了泛化能力。关键创新包括参数高效微调(LoRA)

文章图片
复现 FastVLM | 视觉语言模型 | 高效视觉编码 CVPR2025

苹果团队提出的FastVLM通过创新的FastViTHD混合编码器解决了高分辨率视觉语言模型(VLM)的效率问题。该模型采用5阶段混合架构,前3阶段使用RepMixer块进行局部特征提取,后2阶段采用自注意力机制捕捉全局依赖,通过渐进式下采样将视觉token减少16倍。相比传统ViT-L/14模型,FastVLM在保持同等性能(38项任务平均66.3分)的同时,模型尺寸缩小2.4倍,推理速度提升6

文章图片
#人工智能
视觉SLAM 关键技术与发展概述

前言最近看了北京理工大学的课程《智能车辆概述与应用》,感觉入门角度讲的还不错的,于是通过本文记录关键内容。背景随着计算机视觉的发展,视觉在定位导航中的得到应用;其中相关技术包括视觉里程计VO、视觉SLAM。视觉里程计VO:关注两帧图像之间的位姿关系;一般不存储历史数据,只对当前或局部帧之间的位姿关系;往往忽视全局的一致性;运算速度快。视觉SLAM:计算当前帧(或局部帧) 和 具有历史数据地图的位姿

文章图片
docker 获取Nvidia 镜像 | cuda |cudnn

本文分享如何使用docker获取Nvidia 镜像,包括cuda10、cuda11等不同版本,cudnn7、cudnn8等,快速搭建深度学习环境。

文章图片
#docker#ubuntu
    共 167 条
  • 1
  • 2
  • 3
  • 17
  • 请选择