xian_ren008 个人主页

@xian_ren008

xian_ren008

2025-02-26 14:55:07 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing——论文阅读笔记

本周速读的文章是：Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing，这篇文章我其实没看懂——不是说做法看不懂，而是没看懂怎么个好发，大家奇文共赏吧。

#论文阅读

大语言模型预训练蒸馏会损害上下文学习能力?——Distilled Pretraining: A modern lens of Data, In-Context Learning and

本周速读的文章是：Distilled Pretraining: A modern lens of Data,In-Context Learning and Test-Time Scaling这篇文章介绍了预训练中使用蒸馏技术带来的负面影响——上下文学习能力的下降，及其响应的解决方案。

#语言模型 #学习 #人工智能

大模型训练中对SFT和DPO的魔改——PROXIMAL SUPERVISED FINE-TUNING和Semi-online DPO论文阅读笔记

今天简单介绍两篇讨论SFT和DPO算法微改进的文章。这两篇文章的优势都不是理论叙事，也不是发明了个（某某PO），就比较像在工业场景训练当中的微改进，改进简单，效果也不错。一篇是针对SFT的改进 PROXIMAL SUPERVISED FINE-TUNING，一篇是针对DPO的改进 Bridging Offline and Online Reinforcement Learning for LLMs

#论文阅读

【0样本起手做多标签分类任务】2——模型架构

介绍了一种[可插拔]的分类模型结构，仍然是Transformer模型结构的一种简单改进，实现简单，实践操作简单，维护方便。

#分类 #数据挖掘 #人工智能 +3

如何让LLM变得又纯又欲——Memorization Sinks: Isolating Memorization during LLM Training 论文阅读笔记

文本是针对 Memorization Sinks: Isolating Memorization during LLM Training 这篇论文的阅读笔记，这篇文章介绍的是一种LLM Unlearning的新方法，同样采取的是记忆区隔离的方法，但在记忆区的选择和隔离上做了自己的优化

#论文阅读

微调性能赶不上提示工程怎么办？Can Gradient Descent Simulate Prompting?——论文阅读笔记

本文是对论文 Can Gradient DescentSimulate Prompting 这篇文章的阅读笔记，其中也穿插了一些与模型知识冲突相关的分析。

#论文阅读 #语言模型 #人工智能

LEARNING DYNAMICS OF LLM FINETUNING【论文阅读笔记】

本文是对ICLR上一篇中稿文章 Learning Dynamic of LLMFineTuning的阅读笔记。本文简述了论文的结论，并详细拆解了文章中的关键事实，对理解LLM的post-train的机制有很好的帮助。

#论文阅读 #人工智能 #语言模型 +1

On the Biology of a Large Language Model——论文学习笔记——拒答和越狱

本篇是对Anthropic团队的模型解释工作 On the Biology of a Large Language Model的阅读笔记的最后一篇。主要讲了模型在什么机制的引导下会拒答，又在什么机制的引导下，会被越狱成功。

#语言模型 #学习

On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其二——数学计算部分

本文是Anthropic团队基于Claude模型的模型解释工作，是对这篇On the Biology of Large LanguageModel阅读笔记的第二篇，专注于原文的数学计算部分

#语言模型 #论文阅读 #人工智能 +1

On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其一CLT与LLM知识推理

这篇文章是对Anthopic公司 Claude团队的LLM解释性研究工作 On the Biology ofa Large Language Model的论文学习笔记的第一篇，这篇里主要介绍了解释工具CLT（cross-layer Transcoder的构造和LLM里面进行知识推理的方案

#语言模型 #论文阅读 #人工智能 +1

共 13 条

请选择