logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态预训练模型综述

本文就对多模态预训练模型做了整理,从多模态预训练大模型主要包括以下4个方面:1.多模态众原始输入图、文数据表示:将图像和文本编码为潜在表示,以保留其语义2.多模态数据如何交互融合:设计一个优秀架构来交叉多模态信息之间的相互作用3.多模态预训练大模型如何学习萃取有效知识:设计有效的训练任务来让模型萃取信息4.多模态预训练大模型如何适配下游任务:训练好的预训练模型fintune适配下游任务

文章图片
#计算机视觉#深度学习#人工智能
排序算法(Learn to rank)的一些看法

回来自我隔离期,出不了小区加上倒春寒阴天;疯与快疯之间,重读了微软研究院Learn to Rank几篇经典论文,参考的看了CSDN上不少博主的观点。总觉得对于文章,有些思路上的点没有点透;尝试从排序更根本思路去讲解排序类算法为何如此、以及如此演进。思路:排序从冒泡法说起——打分、参考比较、决策冒泡排序时候每个容器中默认是一个数,所以没有从特征到打分这个步骤冒泡排序时候两个数据大小比...

Tensorflow入门教程(三十)语音识别(中)

------韦访 201811266、提取音频数据的MFCC特征上一讲花了很大的篇幅来将这个MFCC特征,现在我们就来提取它。Python牛逼之处就是有非常多的工具支持各种操作,很完善,所以这里也不需要我们从头开始写,可以借助python_speech_features工具来实现。首先来安装python_speech_features工具,执行以下命令行即可,sudo pip in...

Qwen2-Audio产品说明

这些结果表明,Qwen2-Audio是一种具有潜力的音频-语言模型,可以应用于各种实际场景中的音频理解和交互任务。这些数据集被用来训练Qwen2-Audio模型,以提高其在各种任务上的性能,包括语音识别、语音翻译、情感识别和声音分类等。通过以上三个阶段的训练,Qwen2-Audio能够逐步提高其在各种音频和语言任务上的性能,并最终实现高效的音频理解和交互功能。在预训练阶段,Qwen2-Audio的

文章图片
#信息可视化#人工智能#数据分析 +1
向量检索增强chatglm生成

1.总体介绍了基于向量检索的框架,主要分为两大块:内容存储、内容检索2.具体介绍了内容存储部分技术细节:数据加载模块、数据切块模块、数据embbeding模块、数据存储模块及代码实现3.具体介绍了内容检索部分:向量相似度召回+基于上下文生成问题答案,实现原理和实现代码4.介绍了如何把向量检索生成封装成tool供agnet使用​项目代码:https://github.com/liangwq/Chat

文章图片
#算法
让Ai帮你工作(4)--锁定图片生成角色

1.介绍了角色锁定的三种思路2.介绍了dreambooth为何能够通过特殊符号实现角色锁定、细节锁定3.给了一个github,4步操作就可以实现自己的dreambooth模型4.这个github属于几个月前项目,diffuser已经把dreambooth项目封装进库,后面在介绍lora时候会用diffuser更精简干净带大家实现dreambooth角色锁定

文章图片
#AI作画
让Ai帮你工作(4)--锁定图片生成角色

1.介绍了角色锁定的三种思路2.介绍了dreambooth为何能够通过特殊符号实现角色锁定、细节锁定3.给了一个github,4步操作就可以实现自己的dreambooth模型4.这个github属于几个月前项目,diffuser已经把dreambooth项目封装进库,后面在介绍lora时候会用diffuser更精简干净带大家实现dreambooth角色锁定

文章图片
#AI作画
spark源码阅读——搭建和源码工程师一样的开发环境

阅读好的开源项目是最好的学习code的方法,在一个大型项目中会涉及到软件工程的方方面面。项目代码作为最终的落地物质,其中必然会留下很多顶尖工程师、架构师、设计团队思考的痕迹;如果从这个层面去看一个开源项目,其实至少包括三个方面:1)这个项目是如何架构的,会用到哪些关键技术2)实现这些设计是怎么落到code层面,利用了哪些技巧3)利用了哪些好的库和管理的工具方法理念学习...

大模型相关技术综述

大模型相关技术综述

文章图片
#深度学习
    共 17 条
  • 1
  • 2
  • 请选择