yibulaxinwuhu 个人主页

@yibulaxinwuhu

yibulaxinwuhu

2023-04-23 11:18:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

论文阅读：Training language models to follow instructions with human feedback

经过RLHF的模型模型不仅符合训练它的标注者的偏好，也能很好地泛化到未参与训练数据的“保留（held-out）”标注者的偏好上，此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力，例如非英语语言和代码相关的任务。，在Instruct GPT中，KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合，具体而言，在强化学习的每一步，模型生成的最终奖励R(x,y)不仅仅是奖励模型

#论文阅读 #语言模型 #人工智能

论文阅读：Chain-of-thought prompting elicits reasoning in large language models

在OOD测试中【具体而言是测试样本的步骤数多于提示示例中的步骤数，旨在测试模型是否学会了推理的逻辑模式，而不仅仅是模仿长度】，标准提示在测试中（即更长的序列）中完全失败，无法解决问题，但使用思维链提示，模型展现出了良好的长度泛化能力。具体而言，让模型只输出数学公式。让模型先给答案再出推理。实际上思维链提示是一种随模型规模扩大而涌现的能力，对于小模型，思维链提示并没有带来性能提升，甚至会导致流畅但不

#论文阅读 #语言模型 #算法

论文阅读：Bert: Pre-training of deep bidirectional transformers for language understanding

将特定任务的句子对（如假设-前提、问题-段落）作为句子 A 和 B 输入，对于序列标注、问答等token粒度的任务，将 Token 表示输入到输出层，对于情感分析等分类任务，将[CLS]的表示输入到输出层。作者认为现有技术限制了预训练表示的能力，主要局限在于标准语言模型的单向性，例如，OpenAI GPT 使用从左到右的架构，Transformer中的每个Token只能关注其之前的Token，这种

#人工智能

论文阅读：Emergent abilities of large language models

一个重要的案例是“上下文单词理解”任务，之前的研究（如 GPT-3）即使扩展到很大规模也无法在该任务上超越随机水平，这导致研究者认为这是模型架构（如缺乏双向注意力）的问题，但当使用单纯的解码器模型 PaLM 并将其扩展到 540B 参数时，该能力突然涌现了。具体而言，涌现是指。众所周知，增加语言模型的规模（如增加训练计算量、模型参数量等）通常能带来更好的性能和样本效率，且在许多情况下，规模对性能

#语言模型 #人工智能 #自然语言处理

论文阅读：Training compute-optimal large language models

固定模型大小，变化训练序列长度（与kaplan等人不同的是，针对每一次训练运行，都调整了学习率的 Cosine 衰减周期，使其与计划的训练 Token 数相匹配），得到给定计算量下的的最低损失，对于任意给定的计算预算C，找出能达到最低 Loss 的模型大小N和数据量D，并通过拟合幂律公式。使用IsoFLOP轮廓，选定了 9 个固定的计算预算训练了多种不同大小的模型（对于特定的预算，当模型变大时，

#论文阅读 #语言模型 #深度学习

论文阅读：Scaling laws for neural language models

为了实现计算效率最优，应当优先训练非常大的模型，并在模型远未收敛时就提早停止训练，因为大模型具有更高的样本效率，即达到同样的性能只需更少的数据。顺带一提，在极大的计算量下计算最优策略与过拟合避免规律会发生冲突，作者推测这可能暗示了语言模型性能的某种根本极限，或者标度律在此之前会失效。，其中第一项代表在无限时间训练下的最终收敛损失，仅受模型规模限制，第二项代表由于训练未完成（有限步数）带来的额外损失

#论文阅读 #语言模型 #人工智能

YOLO调参后结果波动大的一个可能原因

采用1e-3这种偏大的学习率时，尚且能够部分抵消这巨大的惯性，因而表现出剧烈的震荡，当改用3e-4这种偏小的学习率时，甚至无法短时间内抵消这份惯性，随着学习率的衰减，自然而然便陷入了局部最优。直到后面看到这个图，发现warmup对网络的收敛性能影响比想象中的大很多，于是细致地过了一遍超参数，发现原始网络的warmup_bias_lr为0.1，在使用AdamW的情况下这显然高到无法接受，于是果断改0

#pytorch #深度学习 #目标检测

到底了