登录社区云,与社区用户共同成长
邀请您加入社区
该用户还未填写简介
暂无可提供的服务
OpenVLA以Llama 2语言模型为基础,结合了融合DINOv2和SigLIP预训练特征的视觉编码器。通过现代低秩自适应方法,OpenVLA可在消费级GPU上进行微调,并通过量化实现高效部署,且不会降低下游任务成功率。Prismatic VLM 是一个「通用视觉-语言模型骨架」,用于把图像 + 语言 → 映射到统一 token 序列空间,具体流程如下:图像 patch (补丁) → visua