logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

记忆之多模态篇

(1)我们这里所说的记忆技术方向是指的长期记忆技术而不是短期记忆,或者说如果模型支持的窗口足够大,能把最近所有轮数的信息带上那直接带就行,我们这里所说的是超过窗口后的记忆情况。(2)关于这里记忆的技术模块大概有:抽取收集->存储->使用。其中(a)抽取收集这里比较关键的就是要抽取什么?甚至是多模态信息抽取等等。(b)存储这里比较关键的就面临以什么样的数据结构存储(比如graph?那边和节点的类型就

语音篇之音效生成模型

在遇到不同序列,就拿最常见的多模态来举例子吧,常用的特征融合手段就是交叉attention,那就是要设计谁作为query?谁作为key和value?一般来说目标序列作为query,而参考源作为key和value,但是具体的kqv的获得还是非常灵活的,比如本篇这里将视频和音频一起混合作为了q,而不是仅仅用音频作为q,在日常工作中,如果想折腾模型结构,这里是可以有一定操作空间的。

语音篇之音乐生成模型

(1)不知道大家发现没有:自从LLM取得历史性的效果提升后,其他模态的AI比如语音和图像等等都也在最近几年突飞猛进,当然不排除扩散模型这种创作性的工作,但是很多都是借鉴甚至直接利用了LLM进行了加持,而LLM最关键也是最牛逼的地方就是能推理,而且能天然用到几乎各个领域。作为技术,如果仅从技术角度看这个事的话,我们的收获是我们可以尝试想办法把LLM这个backbone用进自己的领域(比如VQ-VAE

#语言模型
将理解与生成统一的多模态模型

(1)模态、任务的大统一是趋势,这个方向段时间内应该还会继续有很多工作,甚至把语音一款融合进来。但是大的框架应该是相同的即【输入】每个模态(任务)可能有自己对应的encoder进行分别编码【主框架】主框架应该都还是用LLM,毕竟他的推理能力强,当然这里可以有各种花样比如dense、moe等等。但大概率都是复用目前一些训练好的强大推理能力的参数【输出】每个模态(任务)可能有自己对应的encoder进

基于Qwen2-VL多模态大模型比赛实践

通过本篇我们快速学习了如何使用Qwen2-VL来训练自己的业务,如果大家有类似的需求,可以动手尝试啦~,快去试试吧!咱们下期再见!

文章图片
#人工智能#图像处理
Xgboost实践+第一名天池o2o优惠券的使用预测思路完整版

前言:即上篇理论的学习之后,我们来实践一个天池上面的比赛:o2o优惠券的使用预测(目前第一名auc:0.81,本篇:0.786,待优化)大赛地址https://tianchi.aliyun.com/getStart/introduction.htm?spm=5176.100066.0.0.479b33aflxXSQ8&raceId=231593首先解题思路来源于原第一名wepe..

    共 59 条
  • 1
  • 2
  • 3
  • 6
  • 请选择