logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

阿里云原生实践:基于 Alluxio 数据缓存的大规模深度学习训练性能优化

导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7年的不断开发迭代,支撑大数据处理场景的数据统一管理和高效缓存功能日趋成熟。然而,随着云原生人工智能(Cloud Native AI)的兴起,灵活的计算存储分离架构大行其道。在此背景下,用户在云上训练大规模深度学习模型引发的数据缓存需求日益旺盛。为此,阿里云容器服务团队与 Alluxio 开源社区和南京大学顾

#大数据
Kubernetes, Alluxio 以及解耦的数据分析技术栈

摘要:首先是要闻——Alluxio现在支持K8s Helm charts啦!K8s是Alluxio的一种经过认证的运行环境了。现在,重点是——Alluxio为K8s中的解耦式的数据分析技术栈带回了数据本地性。怎么做到的?继续读下去吧:)在过去几年中,容器在实际部署中的兴起是毫无争议的。容器使得在任意环境中运行应用变得简单,而Kubernetes进一步改变了软件和应用程序的部署及扩展方式,而不...

#大数据
听Alluxio小姐姐讲述:Alluxio云上K8S部署如何加速深度学习训练

在2021 Alluxio Day V 中,Alluxio核心研发工程师 邱璐,为我们带来[Alluxio云上K8S部署如何加速深度学习训练]的分享邱璐 毕业于乔治华盛顿大学数据科学专业,有多年开源社区贡献经验,2018年加入Alluxio 团队,主要负责Alluxio与公有云场景的结合,分布式系统选举机制,日志管理,监控系统,机器学习场景下的数据供给研究开发。·以下为邱璐在本次大会中的演讲实录·

文章图片
#深度学习#pytorch#tensorflow +1
【Alluxio&大厂】原来BOSS直聘是这样应用的

Hello大家好,我是来自BOSS直聘的基础架构工程师周佩洁。主要负责BOSS直聘算法平台的数据流链路的架构和设计。下面由我介绍Alluxio+Fluid在BOSS直聘算法平台的落地实践,我们本期的分享主要分为以下几个内容:首先,我会介绍一下Alluxio在我们这边使用的背景,另外我会介绍一下我们在使用过程中遇到的挑战。再之后我会介绍我们的整个架构设计,最后我会介绍一下使用Fluid管理Allux

#big data#深度学习#大数据
Presto+Alluxio性能调优五大技巧

Presto是一个开源的分布式SQL引擎,因其查询具有低延迟、高并发性和原生支持多数据源的特点而广受认可。Alluxio是一个开源分布式文件系统,以内存速度提供统一的数据访问层。Presto和Alluxio的组合在京东、网易等许多公司中越来越受欢迎,这些公司将Alluxio构建在慢速或远程存储之上作为分布式缓存层,以便查询热数据,避免反复从云存储中读取数据。之前的一篇博客文章中,我们已经在高层次.

#大数据
突破大模型 | Alluxio助力AI大模型训练-成功案例(一)

其实从 2022 年的下半年我们就开始调研 Alluxio 了,但是因为种种原因,中途搁置了一段时间,导致 Alluxio 推迟到今年才上线。在我们调研与上线的过程中,Alluxio 社区是我们最强大的外援,为我们提供了海量的帮助。本次我们在算法场景对 Alluxio 小试牛刀,取得的结果令人十分惊喜。从性能上讲,在算法模型上线的场景,我们将 UnionStore 用 Alluxio 替换后,最高

文章图片
#人工智能#云计算#GPU
HashData实战案例:使用Alluxio构建云原生分析型MPP数据库

本文将介绍北京一家初创企业HashData构建基于云原生的MPP平台的过程。该企业利用对象存储作为数据持久层,Alluxio作为云中的数据编排层,最终构建了一个原生云高性能MPP共享的体系架构。HashData是由一群来自Pivotal、Teradata、IBM、Yahoo!等开源数据资深人士于2016年创立的。它的旗舰产品HashData WareHouse(HDW),是为云环境构建的数据仓库.

#数据库#数据分析
基于Alluxio加速混合云下的Intel Analytics Zoo开源深度学习平台

本文描述了Alluxio如何在混合云环境中,加速oneAPI支撑的英特尔Analytics Zoo开源平台深度学习模型训练。本文会讨论有关新架构和工作流的细节,以及Alluxio的性能优势和基准测试结果。1.混合环境中的深度学习从架构演进到混合模式传统上,数据处理和分析系统是将计算和存储服务作为一个整体平台来设计、构建和操作,并部署在本地/私有数据仓库中的。尽管这种体系结构具有易于管理和高性能的优

#大数据#数据库
2.7版本发布丨Alluxio数据编排平台进一步深化对人工智能和机器学习工作负载在混合云和多云上的支持

新功能极大地提高了人工智能和机器学习模型训练中数据加载和预处理的I/O效率并降低了端到端的训练时间和成本全球首创的开源云原生数据编排软件开发商Alluxio宣布正式发布数据编排平台2.7版本,新版本立即可用。2.7版本通过并行数据加载、数据预处理和训练工作流,可将机器学习(ML)训练的I/O效率提高8-12倍,从而显著降低成本。新版本还提供了更强的性能分析,并能更好地支持Apache Hudi和I

#人工智能#机器学习#big data
到底了