logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

分布式元数据论文阅读笔记整理(持续更新)

阅读分布式元数据论文,整理其目标、挑战、创新点、局限性

文章图片
#论文阅读#分布式#文件系统
从BERT到ChatGPT:大模型训练中的存储系统挑战与技术发展——论文泛读

大模型训练过程中对存储需求大,具有独特的计算模式、访存模式、数据特征,需要根据特征设计合适的存储策略。大模型训练存储加速技术:(1)显存管理:数据并行、流水线并行、张量并行。(2)异构存储技术:利用DRAM、SSD,卸载模型参数、优化器数据、中间结果,并进行预取。(3)数据缩减:增加计算量(激活量重算)或牺牲模型精度(半精度训练)。大模型训练容错技术:(1)参数检查点:将检查点过程拆分,与模型训练

文章图片
#论文阅读
CXL论文阅读笔记整理(持续更新)

阅读CXL相关论文,整理其目标、挑战、创新点、局限性

文章图片
#论文阅读
到底了