logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OpenVLA

OpenVLA以Llama 2语言模型为基础,结合了融合DINOv2和SigLIP预训练特征的视觉编码器。通过现代低秩自适应方法,OpenVLA可在消费级GPU上进行微调,并通过量化实现高效部署,且不会降低下游任务成功率。Prismatic VLM 是一个「通用视觉-语言模型骨架」,用于把图像 + 语言 → 映射到统一 token 序列空间,具体流程如下:图像 patch (补丁) → visua

#人工智能
到底了