logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

分布式元数据论文阅读笔记整理(持续更新)

阅读分布式元数据论文,整理其目标、挑战、创新点、局限性

文章图片
#论文阅读#分布式#文件系统
从BERT到ChatGPT:大模型训练中的存储系统挑战与技术发展——论文泛读

大模型训练过程中对存储需求大,具有独特的计算模式、访存模式、数据特征,需要根据特征设计合适的存储策略。大模型训练存储加速技术:(1)显存管理:数据并行、流水线并行、张量并行。(2)异构存储技术:利用DRAM、SSD,卸载模型参数、优化器数据、中间结果,并进行预取。(3)数据缩减:增加计算量(激活量重算)或牺牲模型精度(半精度训练)。大模型训练容错技术:(1)参数检查点:将检查点过程拆分,与模型训练

文章图片
#论文阅读
从BERT到ChatGPT:大模型训练中的存储系统挑战与技术发展——论文泛读

大模型训练过程中对存储需求大,具有独特的计算模式、访存模式、数据特征,需要根据特征设计合适的存储策略。大模型训练存储加速技术:(1)显存管理:数据并行、流水线并行、张量并行。(2)异构存储技术:利用DRAM、SSD,卸载模型参数、优化器数据、中间结果,并进行预取。(3)数据缩减:增加计算量(激活量重算)或牺牲模型精度(半精度训练)。大模型训练容错技术:(1)参数检查点:将检查点过程拆分,与模型训练

文章图片
#论文阅读
Don’t Maintain Twice, It’s Alright: Merged Metadata Management in Deduplication File System...——论文泛读

针对重复数据删除文件系统(DedupFS),现有架构需要维护文件系统的逻辑到物理(L2P)映射表和用于重复数据删除的指纹到物理(FP2P)映射表,导致额外的元数据开销。本文提出GOGETAFS,核心思想是将FP2P和L2P合并,包括3个技术:(1)LFP映射,将FP2P和L2P合并,减少元数据I/O操作,减少一致性开销。(2)全局LFP表,存储于内存中,根据FP快速查找物理地址和引用计数。并根据内

文章图片
#论文阅读
An In-depth Comparative Analysis of Cloud Block Storage Workloads: Findings and Implications——论文泛读

AliCloud:阿里云I/O负载采集于2020年1月,涵盖了1000卷的一个月I/O行为,每个卷的原始容量从40 GB到5000 GB不等,工作负载跨越不同类型的云应用程序。每个I/O请求都包括:卷号、请求类型、请求偏移量、请求大小和时间戳(以微秒为单位)。TencentCloud:腾讯云I/O负载采集于2018年10月1日12:00至10月10日1:00,涵盖了大约九天内4995卷的块级I/O

文章图片
#论文阅读
Hybrid Block Storage for Efficient Cloud Volume Service——论文泛读

针对生产环境中的云服务,如何在不影响性能的情况下降低成本。本文提出了分布式SSD-HDD混合存储结构Ursa,将主副本存储在SSD上,将备份副本复制到HDD上,不使用SSD作为缓存层。包括以下技术:(1)通过自适应日志,将小型随机写入转换为日志追加,异步合并到HDD,从而弥补SSD和HDD之间的性能差距。(2)为了提高效率,大型顺序写入直接在HDD上执行(绕过日志)。(3)设计了高效的范围优化合并

文章图片
#论文阅读
CXL论文阅读笔记整理(持续更新)

阅读CXL相关论文,整理其目标、挑战、创新点、局限性

文章图片
#论文阅读
More Than Capacity: Performance-oriented Evolution of Pangu in Alibaba——论文泛读

对阿里云盘古2.0的介绍,包括两个阶段:(1)通过文件系统重构和用户空间存储操作系统(USSOS),充分利用SSD和RDMA。设计了统一的、仅追加的持久层,引入了自包含块布局,以减少文件写操作的I/O延迟。USSOS使用运行到完成线程模型,利用高效CPU和内存资源分配的用户空间调度机制。(2)从面向容量发展为面向性能。升级基础设施,开发了每台服务器96 TB SSD,将网络带宽从25 Gbps升级

文章图片
#论文阅读#分布式
到底了