logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文阅读:Emergent abilities of large language models

一个重要的案例是“上下文单词理解”任务,之前的研究(如 GPT-3)即使扩展到很大规模也无法在该任务上超越随机水平,这导致研究者认为这是模型架构(如缺乏双向注意力)的问题,但当使用单纯的解码器模型 PaLM 并将其扩展到 540B 参数时,该能力突然涌现了。具体而言, 涌现是指。众所周知,增加语言模型的规模(如增加训练计算量、模型参数量等)通常能带来更好的性能和样本效率,且在许多情况下,规模对性能

#语言模型#人工智能#自然语言处理
论文阅读:Training compute-optimal large language models

固定模型大小,变化训练序列长度 (与kaplan等人不同的是,针对每一次训练运行,都调整了学习率的 Cosine 衰减周期,使其与计划的训练 Token 数相匹配),得到给定计算量下的的最低损失,对于任意给定的计算预算C,找出能达到最低 Loss 的模型大小N和数据量D,并通过拟合幂律公式。使用IsoFLOP轮廓,选定了 9 个固定的计算预算训练了多种不同大小的模型(对于特定的预算,当模型变大时,

#论文阅读#语言模型#深度学习
论文阅读:Scaling laws for neural language models

为了实现计算效率最优,应当优先训练非常大的模型,并在模型远未收敛时就提早停止训练,因为大模型具有更高的样本效率,即达到同样的性能只需更少的数据。顺带一提,在极大的计算量下计算最优策略与过拟合避免规律会发生冲突,作者推测这可能暗示了语言模型性能的某种根本极限,或者标度律在此之前会失效。,其中第一项代表在无限时间训练下的最终收敛损失,仅受模型规模限制,第二项代表由于训练未完成(有限步数)带来的额外损失

#论文阅读#语言模型#人工智能
YOLO调参后结果波动大的一个可能原因

采用1e-3这种偏大的学习率时,尚且能够部分抵消这巨大的惯性,因而表现出剧烈的震荡,当改用3e-4这种偏小的学习率时,甚至无法短时间内抵消这份惯性,随着学习率的衰减,自然而然便陷入了局部最优。直到后面看到这个图,发现warmup对网络的收敛性能影响比想象中的大很多,于是细致地过了一遍超参数,发现原始网络的warmup_bias_lr为0.1,在使用AdamW的情况下这显然高到无法接受,于是果断改0

文章图片
#pytorch#深度学习#目标检测
到底了