榴莲味薯片个人主页

榴莲味薯片

2023-09-01 13:53:08 加入 DevPress

简介

该用户还未填写简介

未填写擅长的技术栈

暂无可提供的服务

Vision Transformer（VIT）是CLIP架构的视觉塔部分，这部分实现了将图片转化为1*D的特征向量，并使用了分块处理的思想。

因为最后一层（第 12 层）的首要任务是为了分类而分类。它的注意力会极度向 [CLS] Token 靠拢。在这一层，模型已经完成了“理解”，它可能只关注缺陷中最具代表性的一个极小区域，而忽略了缺陷的整体轮廓。这在工业检测中会导致热力图。

到底了