来自γ星的赛亚人个人主页

@m0_58678659

来自γ星的赛亚人

2022-10-24 12:40:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【论文笔记】CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

大规模预训练的 Transformer 模型已经在文本（如GPT-3）和文本到图像（如DALL-E和CogView）生成方面取得了里程碑式的成果。然而，将其应用于视频生成仍然面临许多挑战：潜在的巨大计算成本使得从头开始训练不可承受；文本-视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。在本文中，作者提出了一个9B参数的 Transformer 模型CogVideo，通过继承预训练的文本到

#论文阅读 #transformer #深度学习

ubuntu20.04 下深度学习环境配置史上最详细教程

ubuntu20.04 + cuda11.0.2 + cudnn11.0 + anaconda3 + pytorch + pycharm 环境配置

#linux #ubuntu #深度学习 +1

linux系统 anaconda 换源操作命令

linux系统anaconda 换源问题

#linux #运维 #服务器 +1

【论文笔记】VideoGPT: Video Generation using VQ-VAE and Transformers

作者提出了VideoGPT：一种概念上简单的架构，用于将基于似然的生成建模扩展到自然视频。VideoGPT使用VQ-VAE，通过使用3D卷积和轴向自注意力学习原始视频的下采样离散潜在表示。然后使用类似于GPT的简单架构来自回归地建模离散潜在表示，使用时空位置编码。尽管在公式和训练方面非常简单，但作者设计的架构能够生成与视频GAN模型相竞争的样本，用于BAIR机器人数据集的视频生成，并从UCF-10

#论文阅读

【论文笔记】A Survey of Visual Transformers（完结）

Vision Transformer 综述论文题目：A Survey of Visual Transformers论文链接：https://arxiv.org/abs/2111.06091发表时间：2021年11月AbstractTransformer是一种基于注意...

#transformer #计算机视觉 #神经网络 +2

【论文笔记】A Survey on Vision Transformer

论文标题：A Survey on Vision Transformer论文地址：A Survey on Vision Transformer | IEEE Journals & Magazine | IEEE Xplore发表时间：2021年8月AbstractTransformer 最早应用于自然语言处理领域，是一种主要基于自注意力机制的深度神经网络。由于其强大的表示能力，研究人员正在寻

#transformer #深度学习 #人工智能

【论文笔记】LeViT: a Vision Transformer in ConvNet’s Clothingfor Faster Inference

LeViT 应用了 ResNet 的 Vision Tramsformer

#计算机视觉 #神经网络 #深度学习 +2

【论文笔记】An Image Patch is a Wave: Phase-Aware Vision MLP

在计算机视觉领域，最近的工作表明，主要由全连接层堆叠的纯 MLP 架构可以实现与 CNN 和 Transformer 竞争的性能。视觉 MLP 的输入图像通常被拆分为多个令牌（补丁），而现有的 MLP 模型直接将它们以固定的权重聚合，忽略了来自不同图像的令牌的不同语义信息。为了动态聚合令牌，我们建议将每个令牌表示为具有振幅和相位两部分的波函数。幅度是原始特征，相位项是根据输入图像的语义内容而变化的

【论文笔记】道路检测 SNE-RoadSeg

论文标题：SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate Freespace Detection论文地址：https://arxiv.org/abs/2008.11351v1论文代码：https://github.com/hlwang1124/SNE-Road

#深度学习 #计算机视觉 #目标检测

到底了