logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Pytorch系列(四):猫狗大战1-训练和测试自己的数据集

一、数据集介绍以著名的猫狗大战数据集为例,实战多种分类网络数据分布如下,在data文件夹下,分成 train和validation两个文件夹.├── train│├── cat│└── dog└── validation├── cat└── dog二、制作数据集Pytorch通过继承 torch.utils.data.Dataset 类实现数据的...

#pytorch#深度学习#python
【Few Shot数据集】CUB-200-2011 鸟类

CUA-200-2011 是CUB-200的拓展,包含了200个鸟类,通常用于小目标分类、检测等任务。所有的图片都是注释了 bounding boxes, part locations, 和属性。图像和标注都是手工进行的。下载后,解压如上所示,包含3个文件夹,5个标签文档,和一个README说明文档。images 文件夹有200个子文件夹,每个文件夹存放着对应图像类别的图片parts 文件夹存放着

#计算机视觉#人工智能#深度学习
大模型训练框架DeepSpeed使用入门(1): 训练设置

大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。DeepSpeed是由Microsoft提供的分布式训练工具,旨在支持更大规模的模型和提供更多的优化策略和工具。对于更大模型的训练来说,DeepSpeed提供了更多策略,例如:Zero、Offload等。本文简单介绍下如何使用DeepSpeed。

记录一下caffe1.0里添加densenet

参考https://blog.csdn.net/caicai2526/article/details/79792644DenseNet网络是应用由于分类任务中,在目前较好的分类网络ResNets,他们之前存在着很多的不同。下面先来说一说。 先来看一看网络模型结构: DenseNet主要解决的问题是缓解了消失梯度的问题,增强了特征的传播,促进了特征再利用,大大减少了参数的数量,使网络模型模型进行缩减

CUDA库之NPP(二):NPP实现YUV转BGR

博主在CUDA库之NPP:NVIDIA 2D Image and Signal Processing Performance Primitives中已经详细介绍了NPP是啥,以及如何编译NPP。这里就以 YUV转BGR为例,来完成NPP中的第一个例子(PS:也是博主的第一个Demo)一、前言本文中的例子,仅适合于 512∗512512*512512∗512倍数的图像,因为npp处理数据时,有字节对

#opencv#python
CUDA学习(十二):矩阵乘法

博主CUDA学习系列汇总传送门(持续更新):编程语言|CUDA入门文章目录一、CPU下一般矩阵乘法二、CPU下循环交换矩阵乘法本文章为 《 GPU编程与优化 大众高性能计算》的读书笔记,例子也都取自书中教程。矩阵乘法的运算量和数据量的关系不再是线性关系,对应的运算量为O(n3)O(n^3)O(n3)。矩阵乘法的数学表达式如下:本质上看,矩阵陈发是向量内积的集合,CCC矩阵的每一个元素都是AAA矩阵

CUDA学习(七):CUBLAS库实现向量加法

文章目录一、CUBLAS(V2)库的主要流程说起CUDA,不得不提NVIDIA巨资打造的CUDA库,CUDA函数库可以看做GPU程序的优化极限。针对向量加法,CUBLAS库函数中cublasaxpy()函数可以实现向量加法功能,在float的前提下,可以用cublasSaxpy()函数。本节主要学习了cublas库的调用方法:包括代码上的主要流程以及CMakeList.txt链接库。一、CUBLA

CUDA学习(十):向量内积的多种方法实现

文章目录一、CPU上实现向量内积二、GPU下单Block分散归约向量内积三、单Block低线程归约向量内积四、多block向量内积本文章为 《GPU编程与优化 大众高性能计算》的读书笔记,例子也都取自书中教程。向量内积运算中各元素的运算间存在简单联系,即需要累加所有元素乘积结果。向量内积结果的累加过程称为归约(reduction)向量内积运算在数学上的计算公式为也就是A和B的向量长度相等,相同索引

CUDA(六):多种方法实现向量加

文章目录一、单block 单thread相加二、单block多thread相加向量加法是高性能运算中最简单的运算,本章节将通过CUDA中的几种加法例子来理解CUDA中thread/block的概念一、单block 单thread相加GPU端的向量加法与CPU端类似,只是核函数申明需要用__global__限定符标识;核函数调用时需要<<< X, X>>>配置gr

    共 42 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择