logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

张量并行和模型并行

PipeDream是非交错的Pipeline Parallel, 执行方式是当一个micro-batch forward计算完了之后, 马上执行backward计算, 这样能够提前释放相关micro-batch的intermediate activation, 从而节省显存。最初提出Tensor Parallel是在32G的GPU上训练超大模型, 此时可能会存在单层Transformer显存过大的

#GPU
张量并行和模型并行

PipeDream是非交错的Pipeline Parallel, 执行方式是当一个micro-batch forward计算完了之后, 马上执行backward计算, 这样能够提前释放相关micro-batch的intermediate activation, 从而节省显存。最初提出Tensor Parallel是在32G的GPU上训练超大模型, 此时可能会存在单层Transformer显存过大的

#GPU
pytorch加载预训练模型

1. 查看所有modulemodel.modules()以深度优先遍历的方式,存储了net的所有模块,包括net itself,net's children, children of net's children。即model.children()只包括网络模块的第一代儿子模块,而model.modules()包含网络模块的自己本身和所有后代模块。model.modules()和model.nam

#pytorch#python#深度学习
大模型设计

后训练阶段的数据如果超出了模型pre-training阶段达到的能力, 可能会让模型去做一些它根本做不到的事情。如果模型在预训练阶段没有接触到相关数据, 那模型可能就会迫使模型"一本正经的胡说八道"。但是在post-training阶段, 对于一些高质量得数据, 尽管出现多次, 但是我们仍然想要多次使用。MQA和GQA等, 对训练阶段影像不大, 但是对推理阶段模型的cost和behavior影响很

解决pytorch DDP 报错This error indicates that your module has parameters that were not used

这时未使用的参数就会未参与梯度的计算,因此可以获取未使用参数,并注释掉消除错误。使用pytorch DDP训练的时候,有的时候会报错。现在单GPU下做一个iteration,并在。

文章图片
#pytorch#人工智能#python
scikit-learn中常见的train test split

1. train_test_split进行一次性划分import numpy as npfrom sklearn.model_selection import train_test_splitX, y = np.arange(10).reshape((5, 2)), range(5)"""X: array([[0, 1],[2, 3],[4, 5],[6, 7],[8, 9]])lis

onnx中的常见操作

1. shape取一个tensor的shapetorch.tensor([[2, 3, 4], [3,4,5]])# shape操作输出 (2, 3)2. gather一般用来取shape的某一个维度,例如torch.tensor([2, 256, 768]).gather(index=0)# 输出2torch.tensor([2, 256, 768]).gather(index=1)# 输出25

#pytorch
pytorch多GPU训练卡住

【代码】pytorch多GPU训练卡住。

文章图片
#pytorch#人工智能#python
图像的腐蚀(erosion)和膨胀(dilation)

其实就是定义一个连通规则(structure),用该连通区域在图像上stride, 用连通区域内的最小或者最大值代替原来的值。(边界上只覆盖部分值)1. 腐蚀(erosion)构造如下的连通区域:构造图像:img = np.array([[125, 190, 11, 190],[141, 234, 21, 67],[165, 234, 31, 189],[112, 12, 41, 56]], dt

    共 20 条
  • 1
  • 2
  • 请选择