logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于AWS一键部署运行Spark + Alluxio + S3技术栈与TPC-DS查询基准测试

Spark+Alluxio+S3组合是当前非常流行的数据分析技术栈。Alluxio沙盒(sandbox)技术是对部署在公有云环境多节点集群上的Spark+Alluxio+S3组合进行测试的最简单方法。沙盒集群已经完成全部配置,可供用户运行从hello-world示例程序到TPC-DS基准测试套件(TPC-DS benchmark suite)的各种应用程序。实践出真知,您可以实际运行基准测试,切身

#大数据
DeepTech深科技专访丨分布式系统开源项目领跑者Alluxio获5000万美元C轮融资

独立扩展计算和存储的趋势,对象存储的兴起,混合云和多云的日益普及都进一步加剧了与数据访问相关的挑战。数据被孤立在各种存储系统中,使得用户和应用程序很难有效地找到和访问数据。例如,当一位工程师或科学家想写一个应用程序来解决问题时,他需要花费大量的精力来让应用程序高效地访问数据,而不是专注于算法和应用程序的逻辑。事实上,只要应用程序框架、存储系统或部署环境(云与内部部署)发生变化,开发人员就需要重新编

#c语言#big data#开发语言
2.7版本发布丨Alluxio数据编排平台进一步深化对人工智能和机器学习工作负载在混合云和多云上的支持

新功能极大地提高了人工智能和机器学习模型训练中数据加载和预处理的I/O效率并降低了端到端的训练时间和成本全球首创的开源云原生数据编排软件开发商Alluxio宣布正式发布数据编排平台2.7版本,新版本立即可用。2.7版本通过并行数据加载、数据预处理和训练工作流,可将机器学习(ML)训练的I/O效率提高8-12倍,从而显著降低成本。新版本还提供了更强的性能分析,并能更好地支持Apache Hudi和I

#人工智能#机器学习#big data
Presto+Alluxio性能调优五大技巧

Presto是一个开源的分布式SQL引擎,因其查询具有低延迟、高并发性和原生支持多数据源的特点而广受认可。Alluxio是一个开源分布式文件系统,以内存速度提供统一的数据访问层。Presto和Alluxio的组合在京东、网易等许多公司中越来越受欢迎,这些公司将Alluxio构建在慢速或远程存储之上作为分布式缓存层,以便查询热数据,避免反复从云存储中读取数据。之前的一篇博客文章中,我们已经在高层次.

#大数据
阿里云原生实践:基于 Alluxio 数据缓存的大规模深度学习训练性能优化

导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7年的不断开发迭代,支撑大数据处理场景的数据统一管理和高效缓存功能日趋成熟。然而,随着云原生人工智能(Cloud Native AI)的兴起,灵活的计算存储分离架构大行其道。在此背景下,用户在云上训练大规模深度学习模型引发的数据缓存需求日益旺盛。为此,阿里云容器服务团队与 Alluxio 开源社区和南京大学顾

#大数据
Kubernetes, Alluxio 以及解耦的数据分析技术栈

摘要:首先是要闻——Alluxio现在支持K8s Helm charts啦!K8s是Alluxio的一种经过认证的运行环境了。现在,重点是——Alluxio为K8s中的解耦式的数据分析技术栈带回了数据本地性。怎么做到的?继续读下去吧:)在过去几年中,容器在实际部署中的兴起是毫无争议的。容器使得在任意环境中运行应用变得简单,而Kubernetes进一步改变了软件和应用程序的部署及扩展方式,而不...

#大数据
听Alluxio小姐姐讲述:Alluxio云上K8S部署如何加速深度学习训练

在2021 Alluxio Day V 中,Alluxio核心研发工程师 邱璐,为我们带来[Alluxio云上K8S部署如何加速深度学习训练]的分享邱璐 毕业于乔治华盛顿大学数据科学专业,有多年开源社区贡献经验,2018年加入Alluxio 团队,主要负责Alluxio与公有云场景的结合,分布式系统选举机制,日志管理,监控系统,机器学习场景下的数据供给研究开发。·以下为邱璐在本次大会中的演讲实录·

文章图片
#深度学习#pytorch#tensorflow +1
【Alluxio&大厂】原来BOSS直聘是这样应用的

Hello大家好,我是来自BOSS直聘的基础架构工程师周佩洁。主要负责BOSS直聘算法平台的数据流链路的架构和设计。下面由我介绍Alluxio+Fluid在BOSS直聘算法平台的落地实践,我们本期的分享主要分为以下几个内容:首先,我会介绍一下Alluxio在我们这边使用的背景,另外我会介绍一下我们在使用过程中遇到的挑战。再之后我会介绍我们的整个架构设计,最后我会介绍一下使用Fluid管理Allux

#big data#深度学习#大数据
Presto+Alluxio性能调优五大技巧

Presto是一个开源的分布式SQL引擎,因其查询具有低延迟、高并发性和原生支持多数据源的特点而广受认可。Alluxio是一个开源分布式文件系统,以内存速度提供统一的数据访问层。Presto和Alluxio的组合在京东、网易等许多公司中越来越受欢迎,这些公司将Alluxio构建在慢速或远程存储之上作为分布式缓存层,以便查询热数据,避免反复从云存储中读取数据。之前的一篇博客文章中,我们已经在高层次.

#大数据
突破大模型 | Alluxio助力AI大模型训练-成功案例(一)

其实从 2022 年的下半年我们就开始调研 Alluxio 了,但是因为种种原因,中途搁置了一段时间,导致 Alluxio 推迟到今年才上线。在我们调研与上线的过程中,Alluxio 社区是我们最强大的外援,为我们提供了海量的帮助。本次我们在算法场景对 Alluxio 小试牛刀,取得的结果令人十分惊喜。从性能上讲,在算法模型上线的场景,我们将 UnionStore 用 Alluxio 替换后,最高

文章图片
#人工智能#云计算#GPU
    共 13 条
  • 1
  • 2
  • 请选择