logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

分布式元数据论文阅读笔记整理(持续更新)

阅读分布式元数据论文,整理其目标、挑战、创新点、局限性

文章图片
#论文阅读#分布式#文件系统
A Study of Failure Recovery and Logging of High-Performance Parallel File Systems——论文泛读

针对并行文件系统的可靠性的研究,主要针对故障恢复和日志记录机制。(1)本文提出PFault,故障注入工具,对PFS透明,易于部署。构建了基于iSCSI的PFault原型,涵盖了三个具有代表性的故障模型(即整个设备故障、全局不一致性和网络分区)。为了解决将iSCSI添加到PFS软件堆栈中的潜在问题,开发了非iSCSI版本,用于验证iSCSI对所研究的目标PFS行为的潜在影响。

文章图片
#论文阅读#文件系统
AStore: Uniformed Adaptive Learned Index and Cache for RDMA-Enabled Key-Value Store——论文泛读

针对客户端和服务端分离的分布式键值存储系统,传统方法利用传统索引结构或缓存,但受限于服务端CPU争用。本文提出AStore,采用客户端-服务端框架,利用RDMA、本地缓存索引、自适应学习索引模型。包括以下技术:(1)在客户端和服务端分别采用自适应学习索引模型,用于处理静态(读取)和动态工作负载(插入、更新、删除)。(2)对叶子节点的模型使用细粒度的版本控制,降低客户端和服务端的同步频率。(3)利用

文章图片
#论文阅读
从BERT到ChatGPT:大模型训练中的存储系统挑战与技术发展——论文泛读

大模型训练过程中对存储需求大,具有独特的计算模式、访存模式、数据特征,需要根据特征设计合适的存储策略。大模型训练存储加速技术:(1)显存管理:数据并行、流水线并行、张量并行。(2)异构存储技术:利用DRAM、SSD,卸载模型参数、优化器数据、中间结果,并进行预取。(3)数据缩减:增加计算量(激活量重算)或牺牲模型精度(半精度训练)。大模型训练容错技术:(1)参数检查点:将检查点过程拆分,与模型训练

文章图片
#论文阅读
Pattern-Based Prefetching with Adaptive Cache Management Inside of Solid-State Drives——论文泛读

针对SSD的预取,如何设计独立于操作系统和应用程序的数据预取机制。本文提出了支持自适应缓存管理的基于模式的预取 Cacher-SSD,在SSD的闪存转换层运行。主要包括两个技术:(1)从读请求的历史中挖掘I/O请求间的相关性,以得到经常一起读取的地址集合,在当前时间窗口中进行模式匹配以指导数据预取。(2)综合考虑读/写比率、历史预取精度,构建了一个数学模型,以支持自适应缓存管理。根据实际情况调整预

文章图片
#论文阅读#缓存
An LPDDR-based CXL-PNM Platform for TCO-efficient Inference of Transformer-based LLM...——论文泛读

针对提升大型语言模型(LLM)训练和推理所需内容容量和带宽的问题,模型并行等方法受限于低互联带宽,近内存处理(PNM)受限于扩展性和性能不足。本文提出CXL-PNM,基于CXL的PNM平台,优化GPU的容量和带宽,主要包括3个技术:(1)基于LPDDR5X的CXL内存架构,比DDR5和GDDR6有更高容量和带宽。(2)与推理集成的控制器,提供更高容量(硬件堆叠),可扩展性(多设备并行),并发(硬件

文章图片
#论文阅读
Optimizing Resource Allocation in Hyperscale Datacenters: Scalability, Usability, and ...——论文泛读

针对大规模场景中的资源分配的优化问题,可以采用混合整数规划(MIP)解决,但受限于可用性差、可扩展性差。本文提出资源分配框架Rebalancer。为了可扩展性,将模型表示为有向无环图(DAG),将模型大小从O(|O|×|B|)减小到O(|O|+|B|),同时优化局部搜索更有效地求解。为了可用性,利用直观的API支持声明性模型规范,自动将高级规范转换为图形表示,以实现高效处理。

文章图片
#论文阅读
DREAM: A Dynamic Scheduler for Dynamic Real-time Multi-model ML Workloads——论文泛读

针对实时多模型ML(RTMM)工作负载设计调度器,需要同时考虑多种挑战:异构的ML模型;动态性;数据和控制依赖性;设备计算和能量受限;实时要求。本文提出调度器DREAM,可以有效地处理RTMM系统中实时性、并发性、多模型、多任务的挑战。(1)对于实时性和并发性,提出了MapScore评分指标,同时考虑了紧迫性和公平性。(2)对于级联模型的复杂依赖,跟踪输入帧内和多个帧之间的模型依赖性。(3)对于动

文章图片
#论文阅读
Salus: Efficient Security Support for CXL-Expanded GPU Memory——论文泛读

针对使用CXL内存扩展GPU内存时,为了实现安全产生的相关流量。本文提出了一种新的安全模型,包括三个技术:(1)统一存储器的安全元数据,将安全元数据与数据的物理位置解耦,消除了在数据重新定位过程中的重新加密。(2)重组加密计数器块,在次要计数器之间共享主要计数器,从而减少流量,同时压缩访问频率较低的的计数器块。(3)在CXL到GPU映射中以位掩码格式跟踪脏信息,显著减少元数据访问和写回相关的流量。

文章图片
#论文阅读#GPU
ROLEX: A Scalable RDMA-oriented Learned Key-Value Store for Disaggregated Memory Systems——论文泛读

针对分离式内存系统中,KV存储性能不高的问题,由于内存节点资源有限,现有方法难以直接修改B树或学习索引的模型。作者提出提出了ROLEX,一种可扩展的面向RDMA的有序键值存储,使用分解存储系统的学习索引。包括几个优化点:插入和再训练操作解耦,使计算节点能够直接通过单边RDMA动词修改远程数据,而无需再训练模型,提高可扩展性;其他计算节点通过具有一致性保证的旧模型来识别新修改的数据;异步使用专用计算

文章图片
#论文阅读
    共 21 条
  • 1
  • 2
  • 3
  • 请选择