
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文转载自JayLou娄杰,知乎专栏《高能NLP》作者,已与原作者取得联系,已获授权。原文地址:https://zhuanlan.zhihu.com/p/76912493https://zhuanlan.zhihu.com/p/115014536本文以QA形式总结对比了nlp中的预训练语言模型,主要包括3大方面、涉及到的模型有:单向特征表示的自回归预训练语言模型,统称为单向模型:ELMO/ULMF

1. 概率语言模型设计用于计算一个句话在自然语言中出现的概率2. 语言建模(即训练语言模型的过程):给定n个单词,预测第n+1个单词是什么。神经网络语言模型使用神经网络进行语言建模。3. 神经网络语言模型随着自然语言处理领域不断提出新的网络架构逐步演进,transformer是其中一个标志性里程碑。基于transformer,Google和Open AI分别提出了BERT和GPT 1.0/2.0.

在计算激活值和梯度的时候以fp16精度存储,执行优化算法的时候还原为fp32(缺失位补0),这样最终的效果是模型在GPU上以fp16和fp32两种方式加载,这被称为混合精度训练(mixed precision training)
前向传播过程中计算节点的激活值并保存,计算下一个节点完成后丢弃中间节点的激活值,反向传播时如果有保存下来的梯度就直接使用,如果没有就使用保存下来的前一个节点的梯度重新计算当前节点的梯度再使用。

梯度累积(Gradient Accumulation)的基本思想是将一次性的整批参数更新的梯度计算变为以一小步一小步的方式进行

整理并翻译来自吴恩达深度学习系列视频:结构化机器学习项目2.90和2.10.One of the most exciting recent development in deep learning, has been the rise of end-to-end deep learning.Briefly, there have been some data processing sys...
本文介绍了DeepSeek的三样核心贡献,从原理到意义说明了DeepSeek如何重塑AI格局。

AI时代,大模型对知识创作的冲击从Python开始的博客之路AI从不生产内容,AI只是内容的搬运工 / 复读机粗浅内容将被大模型替代,我们需要更有深度的内容劣质内容将被大模型替代,我们需要更多优质的内容乐观看待变化

在计算激活值和梯度的时候以fp16精度存储,执行优化算法的时候还原为fp32(缺失位补0),这样最终的效果是模型在GPU上以fp16和fp32两种方式加载,这被称为混合精度训练(mixed precision training)
Adam优化算法很长一段时间都是比较主流的参数更新算法,也有很多变种,本文介绍在大模型训练过程中使用的AdamW和Adafator。








