妙BOOK言个人主页

@qq_36159989

妙BOOK言

2024-01-30 10:50:36 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

分布式元数据论文阅读笔记整理（持续更新）

阅读分布式元数据论文，整理其目标、挑战、创新点、局限性

#论文阅读 #分布式 #文件系统

从BERT到ChatGPT：大模型训练中的存储系统挑战与技术发展——论文泛读

大模型训练过程中对存储需求大，具有独特的计算模式、访存模式、数据特征，需要根据特征设计合适的存储策略。大模型训练存储加速技术：（1）显存管理：数据并行、流水线并行、张量并行。（2）异构存储技术：利用DRAM、SSD，卸载模型参数、优化器数据、中间结果，并进行预取。（3）数据缩减：增加计算量（激活量重算）或牺牲模型精度（半精度训练）。大模型训练容错技术：（1）参数检查点：将检查点过程拆分，与模型训练

#论文阅读

从BERT到ChatGPT：大模型训练中的存储系统挑战与技术发展——论文泛读

#论文阅读

Don’t Maintain Twice, It’s Alright: Merged Metadata Management in Deduplication File System...——论文泛读

针对重复数据删除文件系统（DedupFS），现有架构需要维护文件系统的逻辑到物理（L2P）映射表和用于重复数据删除的指纹到物理（FP2P）映射表，导致额外的元数据开销。本文提出GOGETAFS，核心思想是将FP2P和L2P合并，包括3个技术：（1）LFP映射，将FP2P和L2P合并，减少元数据I/O操作，减少一致性开销。（2）全局LFP表，存储于内存中，根据FP快速查找物理地址和引用计数。并根据内

#论文阅读

An In-depth Comparative Analysis of Cloud Block Storage Workloads: Findings and Implications——论文泛读

AliCloud：阿里云I/O负载采集于2020年1月，涵盖了1000卷的一个月I/O行为，每个卷的原始容量从40 GB到5000 GB不等，工作负载跨越不同类型的云应用程序。每个I/O请求都包括：卷号、请求类型、请求偏移量、请求大小和时间戳（以微秒为单位）。TencentCloud：腾讯云I/O负载采集于2018年10月1日12:00至10月10日1:00，涵盖了大约九天内4995卷的块级I/O

#论文阅读

Hybrid Block Storage for Efficient Cloud Volume Service——论文泛读

针对生产环境中的云服务，如何在不影响性能的情况下降低成本。本文提出了分布式SSD-HDD混合存储结构Ursa，将主副本存储在SSD上，将备份副本复制到HDD上，不使用SSD作为缓存层。包括以下技术：（1）通过自适应日志，将小型随机写入转换为日志追加，异步合并到HDD，从而弥补SSD和HDD之间的性能差距。（2）为了提高效率，大型顺序写入直接在HDD上执行（绕过日志）。（3）设计了高效的范围优化合并

#论文阅读

CXL论文阅读笔记整理（持续更新）

阅读CXL相关论文，整理其目标、挑战、创新点、局限性

#论文阅读

More Than Capacity: Performance-oriented Evolution of Pangu in Alibaba——论文泛读

对阿里云盘古2.0的介绍，包括两个阶段：（1）通过文件系统重构和用户空间存储操作系统（USSOS），充分利用SSD和RDMA。设计了统一的、仅追加的持久层，引入了自包含块布局，以减少文件写操作的I/O延迟。USSOS使用运行到完成线程模型，利用高效CPU和内存资源分配的用户空间调度机制。（2）从面向容量发展为面向性能。升级基础设施，开发了每台服务器96 TB SSD，将网络带宽从25 Gbps升级

#论文阅读 #分布式

到底了