多模态：CLIP 模型【连接语言与视觉】

是 OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型，可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练，在很多任务表现上达到了目前最佳表现（SOTA）。本次我们尝试使用 Google 开源的 Conceptual Captions 数据集来训练 CLIP 模型，并对其效果进行一定的验证。

u013250861

1953人浏览 · 2022-12-08 19:04:50

u013250861 · 2022-12-08 19:04:50 发布

CLIP(Contrastive Language-Image Pre-Training，以下简称 CLIP) 模型是 OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型，可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练，在很多任务表现上达到了目前最佳表现（SOTA）。

本次我们尝试使用 Google 开源的 Conceptual Captions 数据集来训练 CLIP 模型，并对其效果进行一定的验证。

模型实践｜ CLIP 模型 - 知乎

超越CLIP的多模态模型，只需不到1%的训练数据，南加大最新研究来了

CLIP - 图像文本多模态模型 - AI备忘录