zhuikefeng 个人主页

@zhuikefeng

zhuikefeng

2022-11-25 15:18:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

cuda知识

或者dpkg -l | grep cudnn。查看tensorrt版本：dpkg -l | grep TensorRT。查看cuda版本：`nvcc` --version，nvcc -V。

#人工智能 #linux #深度学习

大模型学习

其中b是batch，s是序列长度，a是注意力头数，l是transformer层数，h指隐藏层维度。优化器状态占用的显存大小也是一样，与优化器类型有关，与模型参数量有关，但与输入数据的大小无关。计算量和参数量的关系，近似认为，在一次前向传递中，对于每个token，每个模型参数，需要进行2次浮点数运算，即一次乘法法运算和一次加法运算。，b是batch，l是transformer层数，h指隐藏层维度，s

#学习

torch.compile用法

torch.compile 通过 JIT 将 PyTorch 代码编译成优化的内核，使 PyTorch 代码运行得更快。加速主要来自减少了 Python 开销和 GPU 读/写，因此观察到的加速可能因模型架构和批量大小等因素而异。例如，如果一个模型的架构很简单并且数据量很大，那么瓶颈将是 GPU 计算并且观察到的加速可能不那么显着。要求torch>2.0，还需要安装torchtriton。

#pytorch #人工智能 #python

【代码】Linux知识。

需要登录。

官方文档：pybind11文档官方pdf：pybind11文档pdf

#python #c++

到底了