简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大规模预训练的 Transformer 模型已经在文本(如GPT-3)和文本到图像(如DALL-E和CogView)生成方面取得了里程碑式的成果。然而,将其应用于视频生成仍然面临许多挑战:潜在的巨大计算成本使得从头开始训练不可承受;文本-视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。在本文中,作者提出了一个9B参数的 Transformer 模型CogVideo,通过继承预训练的文本到
ubuntu20.04 + cuda11.0.2 + cudnn11.0 + anaconda3 + pytorch + pycharm 环境配置
linux系统anaconda 换源问题
作者提出了VideoGPT:一种概念上简单的架构,用于将基于似然的生成建模扩展到自然视频。VideoGPT使用VQ-VAE,通过使用3D卷积和轴向自注意力学习原始视频的下采样离散潜在表示。然后使用类似于GPT的简单架构来自回归地建模离散潜在表示,使用时空位置编码。尽管在公式和训练方面非常简单,但作者设计的架构能够生成与视频GAN模型相竞争的样本,用于BAIR机器人数据集的视频生成,并从UCF-10
Vision Transformer 综述论文题目:A Survey of Visual Transformers论文链接:https://arxiv.org/abs/2111.06091发表时间:2021年11月AbstractTransformer是一种基于注意...
论文标题:A Survey on Vision Transformer论文地址:A Survey on Vision Transformer | IEEE Journals & Magazine | IEEE Xplore发表时间:2021年8月AbstractTransformer 最早应用于自然语言处理领域,是一种主要基于自注意力机制的深度神经网络。由于其强大的表示能力,研究人员正在寻
LeViT 应用了 ResNet 的 Vision Tramsformer
在计算机视觉领域,最近的工作表明,主要由全连接层堆叠的纯 MLP 架构可以实现与 CNN 和 Transformer 竞争的性能。视觉 MLP 的输入图像通常被拆分为多个令牌(补丁),而现有的 MLP 模型直接将它们以固定的权重聚合,忽略了来自不同图像的令牌的不同语义信息。为了动态聚合令牌,我们建议将每个令牌表示为具有振幅和相位两部分的波函数。幅度是原始特征,相位项是根据输入图像的语义内容而变化的
论文标题:SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate Freespace Detection论文地址:https://arxiv.org/abs/2008.11351v1论文代码:https://github.com/hlwang1124/SNE-Road