logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

cuda知识

或者dpkg -l | grep cudnn。查看tensorrt版本:dpkg -l | grep TensorRT。查看cuda版本:`nvcc` --version,nvcc -V。

文章图片
#人工智能#linux#深度学习
大模型学习

其中b是batch,s是序列长度,a是注意力头数,l是transformer层数,h指隐藏层维度。优化器状态占用的显存大小也是一样,与优化器类型有关,与模型参数量有关,但与输入数据的大小无关。计算量和参数量的关系,近似认为,在一次前向传递中,对于每个token,每个模型参数,需要进行2次浮点数运算,即一次乘法法运算和一次加法运算。,b是batch,l是transformer层数,h指隐藏层维度,s

文章图片
#学习
torch.compile用法

torch.compile 通过 JIT 将 PyTorch 代码编译成优化的内核,使 PyTorch 代码运行得更快。加速主要来自减少了 Python 开销和 GPU 读/写,因此观察到的加速可能因模型架构和批量大小等因素而异。例如,如果一个模型的架构很简单并且数据量很大,那么瓶颈将是 GPU 计算并且观察到的加速可能不那么显着。要求torch>2.0,还需要安装torchtriton。

文章图片
#pytorch#人工智能#python
Linux知识

【代码】Linux知识。

文章图片
#linux#运维#服务器
大模型学习

其中b是batch,s是序列长度,a是注意力头数,l是transformer层数,h指隐藏层维度。优化器状态占用的显存大小也是一样,与优化器类型有关,与模型参数量有关,但与输入数据的大小无关。计算量和参数量的关系,近似认为,在一次前向传递中,对于每个token,每个模型参数,需要进行2次浮点数运算,即一次乘法法运算和一次加法运算。,b是batch,l是transformer层数,h指隐藏层维度,s

文章图片
#学习
大模型学习

其中b是batch,s是序列长度,a是注意力头数,l是transformer层数,h指隐藏层维度。优化器状态占用的显存大小也是一样,与优化器类型有关,与模型参数量有关,但与输入数据的大小无关。计算量和参数量的关系,近似认为,在一次前向传递中,对于每个token,每个模型参数,需要进行2次浮点数运算,即一次乘法法运算和一次加法运算。,b是batch,l是transformer层数,h指隐藏层维度,s

文章图片
#学习
pybind11使用指南

官方文档:pybind11文档官方pdf:pybind11文档pdf

#python#c++
到底了