
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
分布式元数据论文阅读笔记整理(持续更新)
阅读分布式元数据论文,整理其目标、挑战、创新点、局限性

从BERT到ChatGPT:大模型训练中的存储系统挑战与技术发展——论文泛读
大模型训练过程中对存储需求大,具有独特的计算模式、访存模式、数据特征,需要根据特征设计合适的存储策略。大模型训练存储加速技术:(1)显存管理:数据并行、流水线并行、张量并行。(2)异构存储技术:利用DRAM、SSD,卸载模型参数、优化器数据、中间结果,并进行预取。(3)数据缩减:增加计算量(激活量重算)或牺牲模型精度(半精度训练)。大模型训练容错技术:(1)参数检查点:将检查点过程拆分,与模型训练

CXL论文阅读笔记整理(持续更新)
阅读CXL相关论文,整理其目标、挑战、创新点、局限性

到底了







