
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
上一篇写了Transformer,听了李宏毅和李沐老师的课一下子就懂了,今天学习GPT-123GPT和BERT的区别还在于目标函数的选取,GPT预测未来,BERT预测中间(完形填空)GPT核心思想:无标签文本数据预训练+有标签数据微调GPT-2核心思想:只用无标签数据进行预训练,让模型自己学会解决多任务问题GPT-3核心思想:不进行梯度更新或者微调,仅使用个别示......

训练整个数据集是epoch、把数据集分为多少小块就是batch,每个小块(batch)多少个数据就是batch_size,整个数据集需要训练多少轮是iteration

Transformer学习路线完全不懂transformer,最近小白来入门一下,下面就是本菜鸟学习路线。Transformer和CNN是两个分支!!因此要分开学习Transformer是一个Seq2seq模型,而Seq2seq模型用到了self-attention机制,而self-attention机制又在Encoder、Decode中。因此学习将从self-Attention->Seq2

研究动机:深度学习趋向于使用统一方法解决不同领域问题,Bert在nlp,MAE在图像上取得了不错成果,因此作者将MAE扩展到video上做spatiotemporal表征

假设利用上千万的数据来训练好一个模型,当我们遇到一个新的数据领域问题的时候,就不用再重新去找几千万个数据来训练,只需把原来训练好的模型迁移到新的领域,在新的领域往往只需相对较少的数据就同样可以得到很高的精度。举例:比如下图源域是黑白手写数字,目标域是彩色数字,两个分布明显不同,我们需要训练一个特征提取器,然后对这些样本的关键特征进行提取来缩小不同分布之间的差异(下图就是去除颜色的影响提取数字作为最

简单版ViT(无attention部分)主要记录一下Patch Embedding怎么处理和了解一下vit的简单基本框架,下一节写完整的ViT框架图像上的Transformer怎么处理?如图图片—>分块patch---->映射(可学习)---->特征整体网络结构:实践部分:Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddingsPatc

从多模态表示,对齐,融合,跨模态转换,协同学习等5个大方面来介绍在遥感领域的分类和相关工作

训练整个数据集是epoch、把数据集分为多少小块就是batch,每个小块(batch)多少个数据就是batch_size,整个数据集需要训练多少轮是iteration

当源域和目标域并不是独立同分布时,经典机器学习会出现过拟合问题,DA需要解决源域与目标域概率分布不一致,但是任务相同的问题

Transformer学习路线完全不懂transformer,最近小白来入门一下,下面就是本菜鸟学习路线。Transformer和CNN是两个分支!!因此要分开学习Transformer是一个Seq2seq模型,而Seq2seq模型用到了self-attention机制,而self-attention机制又在Encoder、Decode中。因此学习将从self-Attention->Seq2
