
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
(1)一些概念源自LLM(Chatgpt)和网络(百度/知乎等),笔者进行了初步检查。(2)由于其中的各种知识比较琐碎,为了形成较为结构化的知识体系,且使用最简单的、几乎无公式的介绍,故作此博客。(3)着重为机器学习ML与自然语言处理领域NLP的,CV领域的不是很详细讲述了。

如果是整数,表示多少步保存一次;小数,则是按照总训练步,多少比例之后保存一次。:最多中继文件的保存上限,如果超过上限,会先把最旧的那个中继文件删了再保存新的。:是否保存到 HF hub。

众所周知,LLM的模型参数一般保存在或者.bin结尾的大文件但是通过一个RLHF的一个训练后,使用了FSDP分布式训练器所以把文件参数保存在了.pt文件中那么问题来了,保存的参数我如何合并到模型里去,做其他推理任务呢?

即可,里面的代码就无需修改了。

(1)一些概念源自LLM(Chatgpt)和网络(百度/知乎等),笔者进行了初步检查。(2)由于其中的各种知识比较琐碎,为了形成较为结构化的知识体系,且使用最简单的、几乎无公式的介绍,故作此博客。(3)着重为机器学习ML与自然语言处理领域NLP的,CV领域的不是很详细讲述了。

如果是整数,表示多少步保存一次;小数,则是按照总训练步,多少比例之后保存一次。:最多中继文件的保存上限,如果超过上限,会先把最旧的那个中继文件删了再保存新的。:是否保存到 HF hub。

由于默认是右侧padding,而LLM在训练时没有学会从pad_token接下来的生成策略,所以会出问题。有时候默认使用贪心策略来获取 next token,这个时候容易出问题(循环生成等),需要设置。(in one sitting = 一口气) (thug = 暴徒)也可以先选择其中一小部分的数据单独拿出来,做测试或者其他任务。(比如训练时的prompt格式),得到的结果就会不如预期。自定义分词

搞科研,最重要的还是得看懂别人的源代码。这就意味着python不能太差看到比较有用的,或者不怎么看懂的代码,就搜索并学习,放在这里,供学习参考。∗∗在编译器中对包或者类或者方法,点击F12查看源码,而不是百度问怎么获得啥啥参数∗∗\color{red}** 在编译器中对包或者类或者方法,点击F12查看源码,而不是百度问怎么获得啥啥参数**∗∗在编译器中对包或者类或者方法,点击F12查看源码,而不是

前置在线性代数的课程中,我们就学过基本的矩阵及其行初等变化。根据这些初等变化,我们的老师就高速我们怎么样去进行消元,然后求解线性方程组。模板题【模板】高斯消元法 | 洛谷 P3389挺基础的蓝题,虽然是个模板但是思路很简单可以手敲。⌈\lceil⌈高斯约旦消元法⌋\rfloor⌋首先,我们获得一个系数矩阵 An×nA_{n\times n}An×n 和一个列向量 Bn×1B_{n\times 1
【Pytorch安装】windows下,安装了torch但是import torch失败附带问题,原因,解决。







