logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

GPGPU

2个矩阵乘法的例子:1. 分块:每个block负责目标矩阵中的一块,好处:(读显存的数据量:计算次数=1:小块的边长);如果直接每个thread负责1个目标值,读显存数据量:计算次数=1:1,而且读column显存时可能无法连续读显存;1. A*X+Y的例子:https://devblogs.nvidia.com/easy-introduction-cuda-c-and-c/注意...

RingAllreduce和NCCL

(2017年)百度将高性能计算引入深度学习:可高效实现模型的大规模扩展RingAllreduce;适用于单机多卡/多机多卡;关键在于认识到机器硬件拓扑,然后根据拓扑去构建使得最大的边延迟最小的方案;(Step1, Step2, Step3那种AllReduce,在多机通过交换机互联情况下,也可以和机器数目无关);最后再进行5轮类似的传输,所有GPU上就都有了各段...

UGC发垃圾机制和内容审核

知乎:http://www.zhihu.com/question/20103086重复是第一天敌,用户不喜欢被强迫看重复的内容,而垃圾信息则是通过重复这个手段来加强在目标人群中曝光量。行为特征,文本统计重复的水平上,最低等的就是全文重复,高级点儿的是特征重复。分2个粒度:用户粒度、内容粒度一、用户粒度1. 注册时采用验证码校验2. 新注册用户24小时内不能发帖(影响正常用户),3. 账号的字符特征

NVIDIA Triton推理服务器

【译】 英伟达Triton推理服务(一)Triton Architecture - 知乎 (zhihu.com)​​​​​​NVIDIA Triton 助力蚂蚁集团打造新一代推理引擎 - 知乎 (zhihu.com)以上图片展示的是Triton Inference Server的高层级的架构。其中Model Respository 是一个基于文件系统的模型仓库,Triton通过仓库中的模型进行推理

文章图片
搜索排序评价指标

信息检索中常用的评价指标:MAP,NDCG,ERR,F-measure一. NDCG:Normalized Discounted Cumulative Gain; rel是相关度(Gain);i是排名位置(Discounted), 加起来就是CumulativeN是Normalized;(Query是同一个p,但是分子(当前列表)和分母(最优列表)的内容可能不同)...

文章图片
#概率论#算法
神经网络量化

- 训练时对gredient量化,减少网络传输,加快训练速度(1-bit quantization)- 预测模型量化,减少模型大小,使得能加载进内存或显存;计算时还是转成float计算;-预测模型量化,输入的样本也量化,中间激活值也用量化的,INT8和INT8直接计算,计算也加速了;- 训练Forward时也进行伪量化,让训练的模型尽量往减少Forward误差上靠拢,从而减少预测时的...

NVIDIA传统机器学习库(RAPIDS主打)

cuBLAS, cuSPARSE, cuSOLVERNCCLThrustRAPIDS:cuDF: 对标Pandas;cuDF能够快速的对数据进行解压,并加载到ETL系统中去。cuDF还可以对数据进行过滤,合并以及特征提取等所有ETL过程;它与Pandas的功能非常类似,甚至Pandas提供的所有调用、API,在cuDF里都能找到对应的动作、API或者对应的算法,因此,可以很...

算法工程知识汇总(神经网络)

神经网络预测推理---TensorRT: (比Tensorflow的推理快20倍)1. Kernel融合: 横向融合(例如1*1卷积等), 纵向融合(卷积+bias+Relu),消除concatenate层(预分配输出缓存,跳跃式的写入);2. 量化成FP16或者INT8: 减少显存占用,加快推理速度;3. Auto-Tuning:例如,对于卷积计算有若干种算法,TensorRT会...

#神经网络#算法#深度学习
ASR语音识别SOTA模型OpenAI的Whisper

Encoder-Decoder结构。68万小时的监督数据,做的训练。

文章图片
#语音识别#人工智能
分布式系统的CAP理论

分布式系统的CAP理论2000年7月,加州大学伯克利分校的Eric Brewer教授在ACM PODC会议上提出CAP猜想。2年后,麻省理工学院的Seth Gilbert和Nancy Lynch从理论上证明了CAP。之后,CAP理论正式成为分布式计算领域的公认定理。CAP理论概述一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区...

    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择