just_sort 个人主页

@just_sort

just_sort

2023-08-18 16:12:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CUTLASS 2.x & CUTLASS 3.x Intro 学习笔记

这张是CUTLASS GEMM的核心概念图。除了Tiling之外还要考虑Overlap，现在我们有Tling来决定线程块/线程需要做哪些事情，有内存Streaming的过程让数据尽可能的复用在各级存储上，NumStage这个模板参数用来决定开多少个额外的Buffer来做计算和传输的Overlap（参考Double Buffering）,如最下方的中间的图所示。除了Tiling之外另外一个重要的概念

#学习 #pytorch #人工智能

【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一

这里来看官方的介绍：https://openai.com/research/triton ，从官方的介绍中我们可以看到OpenAI Triton的产生动机以及它的目标是什么，还可以看到一些经典算法的实现例子展示。这里的标题是 Introducing Triton: Open-source GPU programming for neural networks ，翻译就是《介绍 Triton：用于神

Intel 内部指令 --- AVX和AVX2学习笔记

AVX编程基础数据类型数据类型描述__m128包含4个float类型数字的向量__m128d包含2个double类型数字的向量__m128i包含若干个整型数字的向量__m256包含8个float类型数字的向量__m256d包含4个double类型数字的向量__m256i包含若干个整型数字的向量每一种类型，从2个下划线开头，接...

详解卷积中的Winograd加速算法

1. 为什么会引入WinoGrad？做过ACM/OI的朋友大家应该对FFT并不默认，我们知道对于两个序列的乘法通过FFT可以从原始O(n^2)复杂度变成O(nlogn)，所以我们就会想着FFT这个算法是否可以应用到我们计算卷积中来呢？当然是可以的，但是FFT的计算有个问题哦，会引入复数。而移动端是不好处理复数的，对于小卷积核可能减少的计算量和复数运算带来的降速效果是不好说谁会主导的。所以在这种情况

大模型KV Cache节省神器MLA学习笔记（包含推理时的矩阵吸收分析）

这篇文章主要是对Deepseek2提出的优化KV Cache的MLA方法做个人理解，特别是关于MLA的矩阵吸收部分，这部分Paper以及官方开源实现没有给出。然后，开源社区大佬确实出手很快，在知乎的《如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？

#学习 #矩阵 #pytorch +2

系统调优助手，PyTorch Profiler TensorBoard 插件教程

使用PyTorch Profiler进行性能分析已经一段时间了，毕竟是PyTorch提供的原生profile工具，个人感觉做系统性能分析时感觉比Nsys更方便一些，并且画的图也比较直观。

#pytorch #人工智能 #python

OpenCV图像处理专栏十四 | 基于Retinex成像原理的自动色彩均衡算法(ACE)

算法原理在介绍中，提到了，高动态图像是指在一幅图像中，既有明亮的区域又有阴影区域，为了使细节清晰，需要满足以下几点：（1）对动态范围具有一定的压缩能力（2）对亮暗区域的细节有一定的显示能力（3）满足（1），（2）的条件下不破坏图像的清晰度Rizzi等根据Retinex理论提出自动颜色均衡算法，该算法考虑了图像中颜色和亮度的空间位置关系，进行局部的自适应滤波，实现具有局部和非线性特征的图像...

SNIP的升级版SNIPER（效果比Mosaic更佳）

1. 前言前面介绍了在小目标检测上另辟蹊径的SNIP算法，这一节来介绍一下SNIP的升级版SNIPER算法，这个算法的目的是减少SNIP的计算量。并且相比于SNIP，基于Faster RCNN（ResNet101作为Backbone）的实验结果显示SNIPER的mAP值比SNIP算法提升了4.64.64.6个百分点，所以效果也还是非常不错的。在单卡V100上，每秒可以处理555涨图像，这个速度在t

【BBuf的CUDA笔记】十，Linear Attention的cuda kernel实现解析

我们先从这个naive的Linear Attention实现入手，摸清代码实现和上面介绍的公式5的对应关系。https://github.com/idiap/fast-transformers/blob/master/fast_transformers/attention/linear_attention.py ，这个实现很短，逐行解释一下。from ..feature_maps import e

#人工智能

AI Infra论文阅读之LIGHTSEQ（LLM长文本训练的Infra工作）

从 https://github.com/RulinShao/LightSeq 注意到这篇paper（https://arxiv.org/pdf/2310.03294.pdf），paper里面有一些比较有趣的发现并且这个paper的代码是基于Triton来实现的，所以激发了我阅读兴趣。我后续也会从源码的角度来解读这篇paper核心idea的代码实现，顺便学习下Triton。介于篇幅原因，这篇文章只

#人工智能 #论文阅读

共 23 条

请选择