logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

图-文多模态,大模型,预训练

图-文任务是指需要同时处理图像和文本数据的任务,如图像描述、图像检索(image retrieval)、视觉问答(visual question answering)等。例如,图像描述(image captioning)就是一种典型的多模态任务,它需要根据给定的图像生成相应的文本描述。既不是单塔模型(擅长图文推理),也不是双塔模型(擅长图文检索),而是使用共享参数提取图像文本特征,然后训练几个专家

文章图片
#深度学习#人工智能#计算机视觉
多任务:分层特征融合网络 NDDR-CNN

论文链接:NDDR-CNN论文摘要:In this paper, we propose a novel Convolutional Neural Network (CNN) structure for general-purpose multi-task learning (MTL), which enables automatic feature fusing at every layer ..

基于CNN的狗叫,猫叫语音分类

基于CNN的狗叫,猫叫语音分类最近开始北漂的实习生活,第一家实习单位还是挺不错的。说句题外话,北京的生活没有想象中的那么恐怖,没有想象中的那么累,反而挺有人情味的。公司里的主要业务是做“声纹识别”的,现在项目组好像主要分为传统的机器学习以及深度学习两个模块在做。刚接触到是一个唤醒的智能AI产品,为了尽快的熟悉这一模块的知识,所以找了个练手的项目。这个分类很简单,...

#cnn#分类
到底了