Vec[95] 个人主页

@weixin_55035144

Vec[95]

2023-08-01 11:58:09 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Anatomy Of High Performance Matrix Multiplication 高性能矩阵乘法剖析

下图左边是一个非常简单的多层内存模型，只有寄存器/ cache/RAM。在这种简单模型结构下考虑优化GEBP，Cmc,n+=Amc,kcBkc,nCmc,n+=Amc,kcBkc,n，其中3个假设基于以上三点假设，上图中GEBP的RAM和cache之间的数据搬移开销为mckc+kcn+2mcnmemops而Cj:=ABj+Cj的计算量为2mckcnflops，那么计算量和数据搬移的比例。问题变成，

#算法 #c++#矩阵

深度学习显卡性能对比与选购，性能对比和性价比对比

省流：个人拿来使用。跑大语言模型就4090，便宜点就3090或3090ti。不跑大语言模型就4070ti，因为有12g显存，再便宜点就2080ti，因为有11g显存，再便宜点就3060，因为有12g显存。

#c++#计算机视觉 #人工智能

【OpenGL】延迟着色和G缓冲

延迟着色（Deferred Shading）是一种渲染技术，通过将几何信息（如位置、法线和颜色）存储在缓冲区中，分两步完成光照计算，从而提升复杂场景的性能。2. 几何阶段 (Geometry Pass) 在几何阶段，渲染场景，将几何信息存储到 G 缓冲区。3. 光照阶段 (Lighting Pass) 使用屏幕空间四边形渲染光照。根据需要添加后期处理，直接在 FragColor 上进行额外处理即可

#人工智能

onnx转换TensorRT的步骤

在onnx-parser中一旦模型parser解析完成，network就自动填好了，成为了serialized network。builder.create_optimization_profile()：创建用于dynamic shape输入的配置器。创建network（计算图）是API独需的因为其他两种方法使用parser从onnx导入，不用一层层添加。模型搭建的入口，网络的trt内部表示和引擎

#开发语言 #人工智能 #c++

到底了