logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【mlflow系列前传】MinIO的搭建使用

是什么MinIO是一个基于Apache License v2.0开源协议的高性能的对象存储,它兼容亚马逊S3云存储服务接口适合大容量的文件存储,如:图片,视频等文件,通常用于作为机器学习,分析的高性能的基础设施,且支持分布式部署搭建需要在本地有Dockerdocker run -p 9000:9000 \-e "MINIO_ACCESS_KEY=AKIAIOSFODNN7EXAMPLE" \-e

#大数据#服务器#分布式 +1
【k8s系列4】kubernetes(k8s)的社区与其他开源项目的区别

本文转载自:谈谈Kubernetes开源社区和未来走向我们知道 Kubernetes 这个项目是托管在 CNCF 基金会下面的。但是,我在专栏最前面讲解容器与 Kubernetes 的发展历史的时候就已经提到过,CNCF 跟 Kubernetes 的关系,并不是传统意义上的基金会与托管项目的关系,CNCF 实际上扮演的,是 Kubernetes 项目的 Marketing 的角色。这就好比,本来

#大数据#云计算#容器 +1
Spark hive类总是优先记载应用里面的jar包,跟spark.{driver/executor}.userClassPathFirst无关

背景最近在弄spark on k8s的时候,要集成同事的一些功能,其实这并没有什么,但是里面涉及到了hive的类问题(具体指这个org.apache.hadoop.hive.包下的类)。之后发现hive类总是优先加载应用jar包里的类,而忽略掉spark自带的系统jars包,这给我带了了很大的困扰,大约花了一两周的时间,终于把这个问题排查清楚了。问题分析直接分析:我们知道在spark提交的时候,会

#大数据#spark
spark on k8s:apache YuniKorn(Incubating)的助力

背景为什么选择spark on k8sApache Spark 作为一站式平台统一了批处理,实时处理,流分析,机器学习,以及交互式查询.虽然说spark 提供了多样的使用场景,但是也带来了额外的复杂性以及集群管理的成本。让我们来看一下为了赋能spark为一站式平台所需要的底层资源编排:spark计算要提供不同的机器学习以及etl任务的资源共享支持在共享k8s集群的spark多版本,python多版

#kubernetes#大数据#spark
【k8s系列3】kubernetes(k8s) scheduler backend 调度的实现

背景随着k8s快来越火热,以及自动部署,自动伸缩等优点,我们今天来探讨一下,基于k8s的backend的调度怎么来实现组件图组件说明整个数据流就是消费者-生产者模型组件解释kubernetesClient跟k8s进行交互,如:任务的提交,杀任务podsPollingSnapshotSource从k8s中拉取pod的任务状态,存储到podSnapshotStorepodsWatchSnapshotS

#分布式#kubernetes#后端 +1
到底了