
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
视觉大模型学习之CLIP&VIT
Vision Transformer(VIT)是CLIP架构的视觉塔部分,这部分实现了将图片转化为1*D的特征向量,并使用了分块处理的思想。
视觉大模型学习之CLIP&VIT
因为最后一层(第 12 层)的首要任务是为了分类而分类。它的注意力会极度向 [CLS] Token 靠拢。在这一层,模型已经完成了“理解”,它可能只关注缺陷中最具代表性的一个极小区域,而忽略了缺陷的整体轮廓。这在工业检测中会导致热力图。
到底了







