
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
之前介绍了打通文本图像的里程碑之作-clip,今天来介绍下VALOR,使用到了视觉-语音-语言三方面的数据,并且在多个数据集上获得了sota的结果。

吴恩达和openai团队共同开发了一款免费的课程,课程是教大家如何更有效地使用prompt来调用chatgpt,整个课程时长1个半小时,也提供了对应的环境和代码,大家可以去学习。

Ray 是一个高性能的分布式执行引擎,开源的人工智能框架。旨在帮助开发者在原有代码上添加几行代码就可以进行分布式训练。它由如下几个部分构成:1)可扩展的库用于常见的机器学习任务,如数据预处理、分布式训练、超参数调优、强化学习和模型服务。2)Python风格的分布式计算原语用于并行化和扩展Python应用程序。3)集成和实用工具用于将Ray集群与现有工具和基础设施(如Kubernetes、AWS、G

今天来带大家一起来学习下ray中对数据的操作,还是非常简洁的。

I3D是除了双流网络视频领域里的另一力作,本文主要的工作有2个方面,一方面就是这个标题名称,inflated,本文提供了一种方法将2D网络膨胀为3D网络,使得视频理解不需要再耗费心神去设计一个专门的网络了,而是可以直接使用图片预训练好的模型甚至是预训练的参数,另一方面是提出了一个Kinetics400数据集(后续还有扩充),大家可以在这个数据集做视频理解的预训练,然后迁移到其他数据集上,也能获得

VIT就是Vision Transformer。目录1.Transformer在视觉领域上使用的难点:2.输入序列长度的改进3.VIT对输入的改进1.Transformer在视觉领域上使用的难点在nlp中,输入transformer中的是一个序列,而在视觉领域,需要考虑如何将一个2d图片转化为一个1d的序列,最直观的想法就是将图片中的像素点输入到transformer中,但是这样会有一个问题,因为

深度学习是机器学习的一个子集。机器学习(ML)是实现 AI 的一种技术。

1.析取使用括号,匹配括号里的任意字符[abc]dee],即匹配 adee,bdee,cdee[Ww]ood,即匹配 Wood和wood使用范围:[a-z] 表示匹配小写字母[A-Z] 表示匹配大写字母2.非析取[^Ss][^A-Z]非大写字母,即匹配小写字母或其他字符。3.更多析取more|less,匹配more或者是lessa|b|c,即[a...
半监督短语挖掘方式autophrase介绍

多模态表示学习是指从多种不同类型的数据源(如图像、文本、音频、视频等)中学习统一的、有意义的特征表示的过程。
