logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型学习7-多模态大模型全景解析

多模态技术的发展经历了长期探索与积累。早期具有代表性的工作是2021年提出的CLIP(Contrastive Language–Image Pre-Training)。该模型通过大规模图文对比学习,实现视觉与语言表示空间的有效对齐,为跨模态特征对齐与联合表示学习提供了关键技术支撑,典型应用包括图文检索、零样本分类等。然而,这一阶段的模型仍以特定任务为导向,缺乏统一的推理能力和通用泛化能力。自202

#学习
到底了