logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文笔记】CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

大规模预训练的 Transformer 模型已经在文本(如GPT-3)和文本到图像(如DALL-E和CogView)生成方面取得了里程碑式的成果。然而,将其应用于视频生成仍然面临许多挑战:潜在的巨大计算成本使得从头开始训练不可承受;文本-视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。在本文中,作者提出了一个9B参数的 Transformer 模型CogVideo,通过继承预训练的文本到

文章图片
#论文阅读#transformer#深度学习
ubuntu20.04 下深度学习环境配置 史上最详细教程

ubuntu20.04 + cuda11.0.2 + cudnn11.0 + anaconda3 + pytorch + pycharm 环境配置

文章图片
#linux#ubuntu#深度学习 +1
【论文笔记】VideoGPT: Video Generation using VQ-VAE and Transformers

作者提出了VideoGPT:一种概念上简单的架构,用于将基于似然的生成建模扩展到自然视频。VideoGPT使用VQ-VAE,通过使用3D卷积和轴向自注意力学习原始视频的下采样离散潜在表示。然后使用类似于GPT的简单架构来自回归地建模离散潜在表示,使用时空位置编码。尽管在公式和训练方面非常简单,但作者设计的架构能够生成与视频GAN模型相竞争的样本,用于BAIR机器人数据集的视频生成,并从UCF-10

文章图片
#论文阅读
【论文笔记】A Survey of Visual Transformers(完结)

Vision Transformer 综述论文题目:A Survey of Visual Transformers论文链接:https://arxiv.org/abs/2111.06091发表时间:2021年11月AbstractTransformer是一种基于注意...

文章图片
#transformer#计算机视觉#神经网络 +2
【论文笔记】A Survey on Vision Transformer

论文标题:A Survey on Vision Transformer论文地址:A Survey on Vision Transformer | IEEE Journals & Magazine | IEEE Xplore发表时间:2021年8月AbstractTransformer 最早应用于自然语言处理领域,是一种主要基于自注意力机制的深度神经网络。由于其强大的表示能力,研究人员正在寻

文章图片
#transformer#深度学习#人工智能
【论文笔记】An Image Patch is a Wave: Phase-Aware Vision MLP

在计算机视觉领域,最近的工作表明,主要由全连接层堆叠的纯 MLP 架构可以实现与 CNN 和 Transformer 竞争的性能。视觉 MLP 的输入图像通常被拆分为多个令牌(补丁),而现有的 MLP 模型直接将它们以固定的权重聚合,忽略了来自不同图像的令牌的不同语义信息。为了动态聚合令牌,我们建议将每个令牌表示为具有振幅和相位两部分的波函数。幅度是原始特征,相位项是根据输入图像的语义内容而变化的

文章图片
【论文笔记】道路检测 SNE-RoadSeg

论文标题:SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate Freespace Detection论文地址:https://arxiv.org/abs/2008.11351v1论文代码:https://github.com/hlwang1124/SNE-Road

文章图片
#深度学习#计算机视觉#目标检测
到底了