
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在上一章中,我们讨论了GoogLeNet网络结构和Inception模块,这节中,我们将讨论由一个新的微结构模块组成的网络结构,即由residual微结构组成的网络结构——ResNet。ResNet网络由residual模块串联而成,在原论文中,我们发现作者训练的ResNet网络深度达到了先前认为不可能的深度。在2014年,我们认为VGG16和VGG19网络结构已经非常深了。然而,通过ResNe.
在深度学习实践中,当训练数据量少时,可能会出现过拟合问题。根据Goodfellow等人的观点,我们对学习算法的任何修改的目的都是为了减小泛化误差,而不是训练误差。我们已经在sb[后续补充]中提到了不同类型的正则化手段来防止模型的过拟合,然而,这些都是针对参数的正则化形式,往往要求我们修改loss函数。事实上,还有其他方式防止模型过拟合,比如:1.修改网络本身架构2.增加数据Dropou...
前面几节内容中,我们都是对小数据集(相对于工业界而言)进行实验,使用CPU环境也可以完美地实现。接下来,我们将使用ImageNet数据集进行实验,该数据集比较大,需要在GPU环境下进行。在对ImageNet数据进行建模之前,我们首先来认识下ImageNet数据集以及对该数据集进行预处理。ImageNet数据集介绍ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是..
第7章 预训练语言模型7.1 概述微调: 让模型从海量数据中充分学习如何从数据中提取特征。然后,会根据具体的目标任务,使用相应的领域数据精调,使模型进一步“靠近”目标任务的应用场景,起到领域适配和任务适配的作用。预训练语言模型具有“三大”特点——大数据、大模型和大算力。7.2 GPTGPT提出了“生成式预训练+判别式任务精调”的自然语言处理新范式,生成式预训练:在大规模文本数据上训练一个高容量的语

第7章 预训练语言模型7.1 概述微调: 让模型从海量数据中充分学习如何从数据中提取特征。然后,会根据具体的目标任务,使用相应的领域数据精调,使模型进一步“靠近”目标任务的应用场景,起到领域适配和任务适配的作用。预训练语言模型具有“三大”特点——大数据、大模型和大算力。7.2 GPTGPT提出了“生成式预训练+判别式任务精调”的自然语言处理新范式,生成式预训练:在大规模文本数据上训练一个高容量的语

本篇文章主要介绍如何使用TensorFlow构建自己的图片数据集TFRecord的方法,并使用最新的数据处理Dataset API进行操作。TFRecordTFRecord数据文件是一种对任何数据进行存储的二进制文件,能更好的利用内存,在TensorFlow中快速的复制,移动,读取,存储等,只要生成一次TFRecord,之后的数据读取和加工处理的效率都会得到提高。一般来说,我们使用Tenso...
本文介绍神经网络训练中的周期性学习率技术。Introduction学习率(learning_rate, LR)是神经网络训练过程中最重要的超参数之一,它对于快速、高效地训练神经网络至关重要。简单来说,LR决定了我们当前的权重参数朝着降低损失的方向上改变多少。new_weight = exsiting_weight - learning_rate * gradient这看上去很简单。但是...
文章目录一、FGM二、使用步骤1.引入库2.读入数据总结对抗训练是一种引入噪声的训练方式,可以对参数进行正则化,提升模型鲁棒性和泛化能力。也就是在输入的层次增加扰动,根据扰动产生的样本,来做一次反向传播。对抗样本一般需要具有两个特点:相对于原始输入,所添加的扰动是微小的;能使模型犯错。用一句话形容对抗训练的思路,就是在输入上进行梯度上升(增大loss)(使得输入尽可能跟原来不一样),在参数上进行梯

前面几节内容中,我们都是对小数据集(相对于工业界而言)进行实验,使用CPU环境也可以完美地实现。接下来,我们将使用ImageNet数据集进行实验,该数据集比较大,需要在GPU环境下进行。在对ImageNet数据进行建模之前,我们首先来认识下ImageNet数据集以及对该数据集进行预处理。ImageNet数据集介绍ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是..
我们知道学习率是深度学习模型中一个非常重要的超参数,因此,当训练深度学习模型时,我们如何确定学习率的大小? 如果学习率太小,网络将会训练很慢且耗时(比如学习率设置为1e-6)。如果学习率太高,网络在训练过程中可能会跳过最小值点。更糟糕的是,高学习率可能会导致loss不断变大,这样就脱离了模型的学习目标。介绍如下图所示,高的学习率,可能会出现跳过最小值点情况,并且loss还增加:图1因此,...







