登录社区云,与社区用户共同成长
邀请您加入社区
文本到图像的人物检索仍然是一项艰巨的任务,原因在于身份内部的显著差异以及视觉和语言之间的模式异质性。前一个挑战源于这样一个事实,即身份的视觉外观因姿势、视角、照明和其他因素而不同,而文本描述则因任意描述顺序和文本模糊性而不同。后一个挑战是跨模态任务中的主要问题,是由视觉和语言之间固有的表征差异造成的。为了应对上述两个挑战,文本到图像的人物检索的核心研究问题是探索更好的方法来提取具有区分性的特征表征
BEITv3其实从方法上来说就是之前BEIT、BEITv2、VLBEIT、VLMO等一系列的工作的一个集合体,本身没有提出新的内容,主要就是把它做大做强,展示了一个Unified Framework能达到的性能。BEiTv3的目标非常明确,就是想做一个更大一统的框架,不论是从模型上统一,而且从训练的目标函数上要统一,还有模型大小,数据集大小,如何scale也要统一,作者称之为Big Converg
图文检索
——图文检索
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net