logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

视觉多模态理解模型基础

目录1. 视觉多模态简介1.1. 视觉表征1.2. Visual Language Alignment2. Vision Transformer3. 多模态对齐4. CLIP4.1. CLIP模型结构4.2. 训练4.3. Prompt Engineer4.4. Limitation4.5. 后续相关研究5. Flamingo视觉语言模型5.1. 模型架构5.2. Perceiver5.3. Li

文章图片
视觉多模态理解模型基础

目录1. 视觉多模态简介1.1. 视觉表征1.2. Visual Language Alignment2. Vision Transformer3. 多模态对齐4. CLIP4.1. CLIP模型结构4.2. 训练4.3. Prompt Engineer4.4. Limitation4.5. 后续相关研究5. Flamingo视觉语言模型5.1. 模型架构5.2. Perceiver5.3. Li

文章图片
到底了