
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
2个矩阵乘法的例子:1. 分块:每个block负责目标矩阵中的一块,好处:(读显存的数据量:计算次数=1:小块的边长);如果直接每个thread负责1个目标值,读显存数据量:计算次数=1:1,而且读column显存时可能无法连续读显存;1. A*X+Y的例子:https://devblogs.nvidia.com/easy-introduction-cuda-c-and-c/注意...
(2017年)百度将高性能计算引入深度学习:可高效实现模型的大规模扩展RingAllreduce;适用于单机多卡/多机多卡;关键在于认识到机器硬件拓扑,然后根据拓扑去构建使得最大的边延迟最小的方案;(Step1, Step2, Step3那种AllReduce,在多机通过交换机互联情况下,也可以和机器数目无关);最后再进行5轮类似的传输,所有GPU上就都有了各段...
知乎:http://www.zhihu.com/question/20103086重复是第一天敌,用户不喜欢被强迫看重复的内容,而垃圾信息则是通过重复这个手段来加强在目标人群中曝光量。行为特征,文本统计重复的水平上,最低等的就是全文重复,高级点儿的是特征重复。分2个粒度:用户粒度、内容粒度一、用户粒度1. 注册时采用验证码校验2. 新注册用户24小时内不能发帖(影响正常用户),3. 账号的字符特征
分布式系统的CAP理论2000年7月,加州大学伯克利分校的Eric Brewer教授在ACM PODC会议上提出CAP猜想。2年后,麻省理工学院的Seth Gilbert和Nancy Lynch从理论上证明了CAP。之后,CAP理论正式成为分布式计算领域的公认定理。CAP理论概述一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区...
神经网络预测推理---TensorRT: (比Tensorflow的推理快20倍)1. Kernel融合: 横向融合(例如1*1卷积等), 纵向融合(卷积+bias+Relu),消除concatenate层(预分配输出缓存,跳跃式的写入);2. 量化成FP16或者INT8: 减少显存占用,加快推理速度;3. Auto-Tuning:例如,对于卷积计算有若干种算法,TensorRT会...
训练试跑,该lr scheduler从小到大增长lr,同时记录下validatin loss;人来观察在训练多少step之后,loss崩掉(diverge)了,进而为真正跑训练,挑选合适的lr区间;如上图,灰线lr增长的块,前面学得更快,某一时刻就diverge了;橙线lr增长慢,但最终val-loss要比灰线的最低点要低;

其余计算梯度中的w、activation、gradient等,全部都是FP16的;w * lr + w --> w,这里的3个w(其实存了2份),都是FP32的;

多模态上做了很多新功能。

使用ONNX和Torchscript加快推理速度的测试 - 知乎 (zhihu.com)结论:1. Batch size小时,ONNX明显比TorchScript要快;Batch size大时,差距缩小;2. Batch内部的序列长度相似时,Batch size越大,加速效果约好;3. 序列越长,加速效果越不明显4. Batch内部的序列长度相差大的话,Batch size可能在中间某个范围是加速
痛点:好的局势下,所有action产生的轨迹,都拿到正的reward;坏的局势下,都拿到负的reward;解决:Return减去"平均Return",用这个"差异"("优势"),代替纯的Return。,其只会影响t时刻之后得到的Reward,和之前的无关。,对接下来邻近的几个Reward关系较大,跟远的关系小。1. 只累加t时刻之后的Reward。B是"平均Return"








