logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing——论文阅读笔记

本周速读的文章是:Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing,这篇文章我其实没看懂——不是说做法看不懂,而是没看懂怎么个好发,大家奇文共赏吧。

文章图片
#论文阅读
大语言模型预训练蒸馏会损害上下文学习能力?——Distilled Pretraining: A modern lens of Data, In-Context Learning and

本周速读的文章是:Distilled Pretraining: A modern lens of Data,In-Context Learning and Test-Time Scaling这篇文章介绍了预训练中使用蒸馏技术带来的负面影响——上下文学习能力的下降,及其响应的解决方案。

文章图片
#语言模型#学习#人工智能
大模型训练中对SFT和DPO的魔改——PROXIMAL SUPERVISED FINE-TUNING和Semi-online DPO论文阅读笔记

今天简单介绍两篇讨论SFT和DPO算法微改进的文章。这两篇文章的优势都不是理论叙事,也不是发明了个(某某PO),就比较像在工业场景训练当中的微改进,改进简单,效果也不错。一篇是针对SFT的改进 PROXIMAL SUPERVISED FINE-TUNING,一篇是针对DPO的改进 Bridging Offline and Online Reinforcement Learning for LLMs

文章图片
#论文阅读
【0样本起手做多标签分类任务】2——模型架构

介绍了一种[可插拔]的分类模型结构,仍然是Transformer模型结构的一种简单改进,实现简单,实践操作简单,维护方便。

文章图片
#分类#数据挖掘#人工智能 +3
如何让LLM变得又纯又欲——Memorization Sinks: Isolating Memorization during LLM Training 论文阅读笔记

文本是针对 Memorization Sinks: Isolating Memorization during LLM Training 这篇论文的阅读笔记,这篇文章介绍的是一种LLM Unlearning的新方法,同样采取的是记忆区隔离的方法,但在记忆区的选择和隔离上做了自己的优化

文章图片
#论文阅读
微调性能赶不上提示工程怎么办?Can Gradient Descent Simulate Prompting?——论文阅读笔记

本文是对论文 Can Gradient DescentSimulate Prompting 这篇文章的阅读笔记,其中也穿插了一些与模型知识冲突相关的分析。

文章图片
#论文阅读#语言模型#人工智能
LEARNING DYNAMICS OF LLM FINETUNING【论文阅读笔记】

本文是对ICLR上一篇中稿文章 Learning Dynamic of LLMFineTuning的阅读笔记。本文简述了论文的结论,并详细拆解了文章中的关键事实,对理解LLM的post-train的机制有很好的帮助。

文章图片
#论文阅读#人工智能#语言模型 +1
On the Biology of a Large Language Model——论文学习笔记——拒答和越狱

本篇是对Anthropic团队的模型解释工作 On the Biology of a Large Language Model的阅读笔记的最后一篇。主要讲了 模型在什么机制的引导下会拒答,又在什么机制的引导下,会被越狱成功。

文章图片
#语言模型#学习
On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其二——数学计算部分

本文是Anthropic团队基于Claude模型的模型解释工作,是对这篇On the Biology of Large LanguageModel阅读笔记的第二篇,专注于原文的数学计算部分

文章图片
#语言模型#论文阅读#人工智能 +1
On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其一CLT与LLM知识推理

这篇文章是对Anthopic公司 Claude团队的LLM解释性研究工作 On the Biology ofa Large Language Model的论文学习笔记的第一篇,这篇里主要介绍了解释工具CLT(cross-layer Transcoder的构造和LLM里面进行知识推理的方案

文章图片
#语言模型#论文阅读#人工智能 +1
    共 13 条
  • 1
  • 2
  • 请选择