logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习训练中Epoch、Batch、Bath_size、Data_size的区别

这个词语的来源主要是为了解释模型更新参数时的单位,一个完整的数据集拿来更新太大了,要切分为几份分别喂给模型进行训练(计算loss和更新policy model,也就是模型),这每一份数据就是一个batch,模型在更新(比如均方误差损失MSE、交叉熵损失)时数据的最小更新单位就是batch。训练集大小,指训练过程中实际使用的训练样本数量。完成一次模型参数的更新,数值上等于。最近在做实验的过程中,总是

#机器学习#batch#人工智能
[已解决] flash-attn报错flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol

最近在使用flash-attn加速大模型加速的时候遇到了各种各样的bug,主要就是报flash-attn版本与transformer还有deepspeed版本冲突等各种各样的问题,但是本质上还是因为flash-attn版本没有安装正确的原因,安装与你上述三个环境相符的版本即可解决问题。找到对应的安装包下载,选择包时要根据自己的torch版本,cuda版本(可以选择低于自己cuda版本的) 和pyt

#linux#运维#服务器
[已解决] flash-attn报错flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol

最近在使用flash-attn加速大模型加速的时候遇到了各种各样的bug,主要就是报flash-attn版本与transformer还有deepspeed版本冲突等各种各样的问题,但是本质上还是因为flash-attn版本没有安装正确的原因,安装与你上述三个环境相符的版本即可解决问题。找到对应的安装包下载,选择包时要根据自己的torch版本,cuda版本(可以选择低于自己cuda版本的) 和pyt

#linux#运维#服务器
学习笔记—计算机组成原理存储器按字节编址和按字编制

寻址指当CPU请求数据时获得该数据在内存上的位置的过程。内存上存储的所有数据都会有一个可以区分的地址,这与其存放的位置相对应,当CPU请求数据时,内存中的电路会根据CPU的地址线上的信号利用数据总线向CPU返回数据。那么内存是如何编码数据保存的位置的?这里涉及到上文所述的字节的概念。内存每一个存储位置的最小单元都可以储存0或1,即一个位的内容,而内存将8个位设定为一个存储空间的基本单位。而在地址线

#学习#经验分享
scp 报错:Not a regular file 【已解决】

最近在用服务器与Windows文件进行互传的时候遇到了这样的问题:C:/Users/Admin/Desktop/Ubuntu/Llama-3.2-3B: not a regular file。:scp -r 用户名@计算机IP或者(或者计算机名称):远程路径 本地路径。:scp -r 目录名 用户名@计算机IP(或者计算机名称):远程路径。: scp 文件名 用户名@计算机IP(或者计算机名称):

文章图片
#算法#语言模型#计算机视觉 +1
到底了