logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文阅读:Training language models to follow instructions with human feedback

经过RLHF的模型模型不仅符合训练它的标注者的偏好,也能很好地泛化到未参与训练数据的“保留(held-out)”标注者的偏好上,此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力,例如非英语语言和代码相关的任务。,在Instruct GPT中,KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合,具体而言,在强化学习的每一步,模型生成的最终奖励R(x,y)不仅仅是奖励模型

#论文阅读#语言模型#人工智能
论文阅读:Chain-of-thought prompting elicits reasoning in large language models

在OOD测试中【具体而言是测试样本的步骤数多于提示示例中的步骤数,旨在测试模型是否学会了推理的逻辑模式,而不仅仅是模仿长度】,标准提示在测试中(即更长的序列)中完全失败,无法解决问题,但使用思维链提示,模型展现出了良好的长度泛化能力。具体而言,让模型只输出数学公式。让模型先给答案再出推理。实际上思维链提示是一种随模型规模扩大而涌现的能力,对于小模型,思维链提示并没有带来性能提升,甚至会导致流畅但不

#论文阅读#语言模型#算法
论文阅读:Bert: Pre-training of deep bidirectional transformers for language understanding

将特定任务的句子对(如假设-前提、问题-段落)作为句子 A 和 B 输入,对于序列标注、问答等token粒度的任务,将 Token 表示输入到输出层,对于情感分析等分类任务,将[CLS]的表示输入到输出层。作者认为现有技术限制了预训练表示的能力,主要局限在于标准语言模型的单向性,例如,OpenAI GPT 使用从左到右的架构,Transformer中的每个Token只能关注其之前的Token,这种

#人工智能
论文阅读:Emergent abilities of large language models

一个重要的案例是“上下文单词理解”任务,之前的研究(如 GPT-3)即使扩展到很大规模也无法在该任务上超越随机水平,这导致研究者认为这是模型架构(如缺乏双向注意力)的问题,但当使用单纯的解码器模型 PaLM 并将其扩展到 540B 参数时,该能力突然涌现了。具体而言, 涌现是指。众所周知,增加语言模型的规模(如增加训练计算量、模型参数量等)通常能带来更好的性能和样本效率,且在许多情况下,规模对性能

#语言模型#人工智能#自然语言处理
论文阅读:Training compute-optimal large language models

固定模型大小,变化训练序列长度 (与kaplan等人不同的是,针对每一次训练运行,都调整了学习率的 Cosine 衰减周期,使其与计划的训练 Token 数相匹配),得到给定计算量下的的最低损失,对于任意给定的计算预算C,找出能达到最低 Loss 的模型大小N和数据量D,并通过拟合幂律公式。使用IsoFLOP轮廓,选定了 9 个固定的计算预算训练了多种不同大小的模型(对于特定的预算,当模型变大时,

#论文阅读#语言模型#深度学习
论文阅读:Scaling laws for neural language models

为了实现计算效率最优,应当优先训练非常大的模型,并在模型远未收敛时就提早停止训练,因为大模型具有更高的样本效率,即达到同样的性能只需更少的数据。顺带一提,在极大的计算量下计算最优策略与过拟合避免规律会发生冲突,作者推测这可能暗示了语言模型性能的某种根本极限,或者标度律在此之前会失效。,其中第一项代表在无限时间训练下的最终收敛损失,仅受模型规模限制,第二项代表由于训练未完成(有限步数)带来的额外损失

#论文阅读#语言模型#人工智能
YOLO调参后结果波动大的一个可能原因

采用1e-3这种偏大的学习率时,尚且能够部分抵消这巨大的惯性,因而表现出剧烈的震荡,当改用3e-4这种偏小的学习率时,甚至无法短时间内抵消这份惯性,随着学习率的衰减,自然而然便陷入了局部最优。直到后面看到这个图,发现warmup对网络的收敛性能影响比想象中的大很多,于是细致地过了一遍超参数,发现原始网络的warmup_bias_lr为0.1,在使用AdamW的情况下这显然高到无法接受,于是果断改0

文章图片
#pytorch#深度学习#目标检测
到底了