
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads作者提出分布式机器学习系统中出现的三个问题:作业调度GPU利用率训练中会产生的错误作业调度由于分布式机器学习中要求资源限制而使用gang调度算法,因此会产生资源碎片导致利用率不高。由于需要同步参数因此分布式作业locality非常重要,但也由于lo
总体流程数据预处理部分:数据增强:torchvision中transforms模块自带功能,当原始数据不够多的时候通过Data Augmentation(数据增强)使得图片的数量变多。CV中常用数据增强的方法有:对图片进行翻转、放大、缩小数据预处理DataLoader模块直接读取batch数据网络模块设置:加载预训练模型,torchvision中有很多经典网络架构,调用起来十分方便,并且可以用人家
强化学习最本质的数学模型,MDP强化学习的本质其实就是一个马尔可夫决策过程(MDP),在一个,MDP中最关键的一个公式就是bellman equation:下面说的是在一个没有action的MRP过程中,一个状态的价值v(s)v(s)v(s)与当前状态的奖励R(s)R(s)R(s) 和此状态的转移状态V(s′)V(s')V(s′)有关。对于Bellman equation有三种求解方式:DP,需要
集群调度器的演进Firmament.io这片paper详细总结了目前调度的几大分类:a. 集中式调度器:代表k8s、Hadoop 、HPC 调度器。优势:调度器可以感知全局信息,因此可以基于此开发不同的调度算法来避免因为作业竞争而产生作业干扰。因为可以获取集群全局信息因此可以设计优先级抢占算法。劣势:1.针对不同类型的作业都采用了同一种调度算法; 2.调度器对作业处理的顺序是一个问题,需要一个良好
阿里云在k8s中实现了在容器间对GPU的资源共享,具体实现为:aliyun/gpushare-scheduler-extenderaliyun/gpushare-device-pluginscheduler-extender与default scheduler的关联:在default scheduler的默认启动参数中添加参数--configextender-config.yaml中为extend
GMM只能针对单个样本(变量)进行建模,当把随机变量延伸到随机序列的时候,就需要通过HMM模型进行估计。HMM基本组成:HMM由初始概率分布(π\piπ)、状态转移概率分布(A)、观测概率分布决定(B), A,B,π\piπ是HMM的三要素当HMM的观测概率分布是由混合告诉模型GMM表示时,称之为GMM-HMM模型。HMM的三个基本问题:概率计算问题:直接计算法前向算法:后向算法:预测算法:Vit
语音识别Overview语音识别输出的数据类型(Token)分类Phoneme:发音的基本单位(类似于音标)需要一个lexicon记录word与phonemes的对应关系:Grapheme:书写的基本单位中文:一个字英文:26个英文单词无需lexicon的映射关系word:词不同语言的词汇都非常的多-morpheme:有意义的基本单位(长度在word和grapheme之间)例如unbreakabl
语音信号特征提取流程预加重:preemphasis反应到代码其实就是1行:np.append(signal[0], signal[1:] - coeff * signal[:-1])加窗分帧为什么要加上帧移?加窗的代价是一帧信号两端的部分被削弱了,没有像中央的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移,常见的取法是取为帧长的一半,或者
高斯分布多维的高斯分布形式高斯分布的最大似然估计:2.混合高斯分布GMM
强化学习的数学模型强化学习本质上是一个马尔可夫决策过程(MVP)。在一个初始状态S下通过一系列动作集合 A下的决策,找到决策过程中的最优解。RL训练的过程就是不断的进行尝试并记录之前的决策过程,在一此决策的过程中较大概率的选择记录表中分数较大的动作,这个就是Q-learning算法,最终训练出来的表就是Q值表。举个栗子走迷宫:任务描述:红块从左上角开始走到黄圈代表天堂即为成功,黑块代表地狱走进去就







