logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Kosmos-1: 通用接口架构下的多模态大语言模型

kosmos 构建一个通用接口的多模态大语言模型

文章图片
#语言模型#自然语言处理
基于CLIP特征的多模态大模型中的视觉短板问题

如今的大多数多模态大模型,其视觉输入侧采用的视觉编码器,都是依照CLIP的训练方式,采用大规模对比学习进行训练的。在论文 [1] 中,作者发现CLIP特征具有某些视觉短板,从而导致基于此的MLLM也受到了影响。作者观察到,在一些简单直接(不需要复杂推理)的问题上,MLLM似乎并不能很好解决...

文章图片
Kosmos-2: 在多模态大语言模型中引入基准和指代能力

kosmos-2:一种提供了基准和指代能力的多模态大语言模型

文章图片
#人工智能#自然语言处理
【论文极速读】 LLava: 指令跟随的多模态大语言模型

如何将已预训练好的大规模语言模型(LLM)和多模态模型(如CLIP)进行融合,形成一个多模态大语言模型(MLLM)是目前很火热的研究课题。本文将要介绍的LLava是一个经典的工作,其采用了指令微调的方式对MLLM进行训练,笔者在此笔记,希望对诸位读者有所帮助。

文章图片
#人工智能#自然语言处理
深度学习debug沉思录

前言:接触深度学习也有一两年了,一直没有将一些实战经验整理一下形成文字。本文打算用来纪录一些在深度学习实践中的调试过程,纪录一些经验之谈。因为目前深度学习业界的理论基础尚且薄弱,很多工程实践中的问题没法用理论解释得很好,这里的只是实践中的一些经验之谈,以供参考以及排错。本文将持续更新。如有问题请指出,联系方式:e-mail: FesianXu@163.comQQ: 973926198gi...

#深度学习
【论文极速读】 LLava: 指令跟随的多模态大语言模型

如何将已预训练好的大规模语言模型(LLM)和多模态模型(如CLIP)进行融合,形成一个多模态大语言模型(MLLM)是目前很火热的研究课题。本文将要介绍的LLava是一个经典的工作,其采用了指令微调的方式对MLLM进行训练,笔者在此笔记,希望对诸位读者有所帮助。

文章图片
#人工智能#自然语言处理
图文搜索系统中的多模态模型:将MoCo应用在多模态对比学习上

图文搜索系统中的多模态模型:将MoCo应用在多模态对比学习上FesianXu 20210917 at Baidu Search Team前言之前我们在[1]中介绍过超大负样本对于对比学习训练的重要意义,并且在[2,3]中介绍了MoCo,Memory Bank等方法去突破硬件限制地去进一步增大负样本数量。然而,之前这些方法都尝试在单模态数据上进行对比学习[4],在文章[5]中,作者团队提出了WenL

文章图片
#深度学习#机器学习#人工智能
Kosmos-2: 在多模态大语言模型中引入基准和指代能力

kosmos-2:一种提供了基准和指代能力的多模态大语言模型

文章图片
#人工智能#自然语言处理
万字浅析视频搜索系统中的多模态能力建设

视频搜索是天然的富媒体检索场景,视觉信息占据了视频的一大部分信息量,在视频搜索系统中引入多模态能力,对于提高整个系统的能力天花板至关重要。本文将对在视频搜索系统中落地多模态能力(特别是视觉)进行讨论,同时为了让部分无相关背景的读者补充一些背景知识...

文章图片
#经验分享
    共 72 条
  • 1
  • 2
  • 3
  • 8
  • 请选择