logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【mlflow系列前传】MinIO的搭建使用

是什么MinIO是一个基于Apache License v2.0开源协议的高性能的对象存储,它兼容亚马逊S3云存储服务接口适合大容量的文件存储,如:图片,视频等文件,通常用于作为机器学习,分析的高性能的基础设施,且支持分布式部署搭建需要在本地有Dockerdocker run -p 9000:9000 \-e "MINIO_ACCESS_KEY=AKIAIOSFODNN7EXAMPLE" \-e

#大数据#服务器#分布式 +1
【k8s系列4】kubernetes(k8s)的社区与其他开源项目的区别

本文转载自:谈谈Kubernetes开源社区和未来走向我们知道 Kubernetes 这个项目是托管在 CNCF 基金会下面的。但是,我在专栏最前面讲解容器与 Kubernetes 的发展历史的时候就已经提到过,CNCF 跟 Kubernetes 的关系,并不是传统意义上的基金会与托管项目的关系,CNCF 实际上扮演的,是 Kubernetes 项目的 Marketing 的角色。这就好比,本来

#大数据#云计算#容器 +1
Spark hive类总是优先记载应用里面的jar包,跟spark.{driver/executor}.userClassPathFirst无关

背景最近在弄spark on k8s的时候,要集成同事的一些功能,其实这并没有什么,但是里面涉及到了hive的类问题(具体指这个org.apache.hadoop.hive.包下的类)。之后发现hive类总是优先加载应用jar包里的类,而忽略掉spark自带的系统jars包,这给我带了了很大的困扰,大约花了一两周的时间,终于把这个问题排查清楚了。问题分析直接分析:我们知道在spark提交的时候,会

#大数据#spark
spark on k8s:apache YuniKorn(Incubating)的助力

背景为什么选择spark on k8sApache Spark 作为一站式平台统一了批处理,实时处理,流分析,机器学习,以及交互式查询.虽然说spark 提供了多样的使用场景,但是也带来了额外的复杂性以及集群管理的成本。让我们来看一下为了赋能spark为一站式平台所需要的底层资源编排:spark计算要提供不同的机器学习以及etl任务的资源共享支持在共享k8s集群的spark多版本,python多版

#kubernetes#大数据#spark
【k8s系列3】kubernetes(k8s) scheduler backend 调度的实现

背景随着k8s快来越火热,以及自动部署,自动伸缩等优点,我们今天来探讨一下,基于k8s的backend的调度怎么来实现组件图组件说明整个数据流就是消费者-生产者模型组件解释kubernetesClient跟k8s进行交互,如:任务的提交,杀任务podsPollingSnapshotSource从k8s中拉取pod的任务状态,存储到podSnapshotStorepodsWatchSnapshotS

#分布式#kubernetes#后端 +1
spark on k8s的动态资源分配和external shuffle Service以及任务的队列资源管理

我们知道目前在spark on k8s的官网中,这里有两项很明显的future work。动态资源分配和外部的shuffle serivce任务队列以及资源管理也就是说,目前这两项spark还是不支持的,借助于广大社区的力量,各个大厂都提出了自己的开源方案外部的shuffle service通过RSS(remote shuffle service)来解决关于RSS可以参考spark remote

#spark#kubernetes
SPARK k8s backend中Executor Rolling(Executor的自动化滚动驱逐)

主要解决在Streaming中由于一个Executor的处理延迟导致整个Streaming任务延迟,但是这也是适用于批任务,使得批任务Executor的驱逐更加灵活。(通过AppStatusListener机制获取到对应的Event,从而存储信息)存储中取出Executor的信息,进而根据配置的策略(Executor创建的ID,失败的task,GC时间等)进行驱逐。当然在驱逐Executor的时候

#spark#自动化#大数据
spark on k8s 镜像构建

spark on k8s 基础镜像的构建背景这是跑spark on k8s任务的基础镜像,用来指明executor pod的基础镜像构建步骤git clone spark特定的版本(加入是3.0.1版本),克隆完后,执行一下命令进行构建,构建出包含kubernetes模块的可运行包:./dev/make-distribution.sh --name 2.6.0-cdh5.13.1--pip --t

#大数据#k8s#kubernetes +1
【spark系列2】spark 合并github (pull request)pr 的正确姿势

最近在做内部spark版本升级的工作,涉及到github 上合并pr的工作,具体的是spark 2.x升级到spark 3.0.1时兼容hdfs cdh-2.6.0-5.13.1,报编译错误[INFO] Compiling 25 Scala sources to /Users/libinsong/Documents/codes/tongdun/spark-3.0/resource-managers

#spark#大数据#github +1
scala中的self =>

在scala的一些开源项目的源码中总是能看到类似self =>关键字,那这到底代表什么呢?在此,记录一下,仅作为笔记this 别名这种相当于给this起了一个别名self,这里的self可以换成其他的你自己喜欢的字符串,看一下spark的源码sparkSession的定义:class SparkSession private(@transient val sparkContext: Spar

#scala
    共 11 条
  • 1
  • 2
  • 请选择