鸿乃江边鸟个人主页

@monkeyboy_tech

鸿乃江边鸟

2023-08-24 18:16:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

数据湖的选型(delta iceberg hudi)以及比对

支持update，支持upsert（merge），具体看类IcebergSparkSqlExtensionsParser.replaceRowLevelCommands。分区是隐藏的，在查询时不需要添加关于分区的筛选条件，建表的时候指定分区的来源（由哪个字段计算而来）Iceberg有catalog的概念，是对表进行管理(create，drop等)的一个组件。需要额外的服务治理小文件,额外的服务清理

#大数据 #hadoop #spark

【mlflow系列前传】MinIO的搭建使用

是什么MinIO是一个基于Apache License v2.0开源协议的高性能的对象存储，它兼容亚马逊S3云存储服务接口适合大容量的文件存储，如：图片，视频等文件，通常用于作为机器学习，分析的高性能的基础设施，且支持分布式部署搭建需要在本地有Dockerdocker run -p 9000:9000 \-e "MINIO_ACCESS_KEY=AKIAIOSFODNN7EXAMPLE" \-e

#大数据 #服务器 #分布式 +1

【k8s系列4】kubernetes(k8s)的社区与其他开源项目的区别

本文转载自：谈谈Kubernetes开源社区和未来走向我们知道 Kubernetes 这个项目是托管在 CNCF 基金会下面的。但是，我在专栏最前面讲解容器与 Kubernetes 的发展历史的时候就已经提到过，CNCF 跟 Kubernetes 的关系，并不是传统意义上的基金会与托管项目的关系，CNCF 实际上扮演的，是 Kubernetes 项目的 Marketing 的角色。这就好比，本来

#大数据 #云计算 #容器 +1

Spark hive类总是优先记载应用里面的jar包,跟spark.{driver/executor}.userClassPathFirst无关

背景最近在弄spark on k8s的时候，要集成同事的一些功能，其实这并没有什么，但是里面涉及到了hive的类问题（具体指这个org.apache.hadoop.hive.包下的类）。之后发现hive类总是优先加载应用jar包里的类，而忽略掉spark自带的系统jars包，这给我带了了很大的困扰，大约花了一两周的时间，终于把这个问题排查清楚了。问题分析直接分析：我们知道在spark提交的时候，会

#大数据 #spark

spark on k8s:apache YuniKorn（Incubating）的助力

背景为什么选择spark on k8sApache Spark 作为一站式平台统一了批处理,实时处理,流分析，机器学习，以及交互式查询.虽然说spark 提供了多样的使用场景，但是也带来了额外的复杂性以及集群管理的成本。让我们来看一下为了赋能spark为一站式平台所需要的底层资源编排：spark计算要提供不同的机器学习以及etl任务的资源共享支持在共享k8s集群的spark多版本，python多版

#kubernetes #大数据 #spark

【k8s系列3】kubernetes(k8s) scheduler backend 调度的实现

背景随着k8s快来越火热，以及自动部署，自动伸缩等优点，我们今天来探讨一下，基于k8s的backend的调度怎么来实现组件图组件说明整个数据流就是消费者-生产者模型组件解释kubernetesClient跟k8s进行交互，如:任务的提交,杀任务podsPollingSnapshotSource从k8s中拉取pod的任务状态,存储到podSnapshotStorepodsWatchSnapshotS

#分布式 #kubernetes #后端 +1

spark on k8s的动态资源分配和external shuffle Service以及任务的队列资源管理

我们知道目前在spark on k8s的官网中，这里有两项很明显的future work。动态资源分配和外部的shuffle serivce任务队列以及资源管理也就是说，目前这两项spark还是不支持的，借助于广大社区的力量，各个大厂都提出了自己的开源方案外部的shuffle service通过RSS（remote shuffle service）来解决关于RSS可以参考spark remote

#spark #kubernetes

SPARK k8s backend中Executor Rolling(Executor的自动化滚动驱逐)

主要解决在Streaming中由于一个Executor的处理延迟导致整个Streaming任务延迟，但是这也是适用于批任务，使得批任务Executor的驱逐更加灵活。（通过AppStatusListener机制获取到对应的Event，从而存储信息）存储中取出Executor的信息，进而根据配置的策略（Executor创建的ID，失败的task，GC时间等）进行驱逐。当然在驱逐Executor的时候

#spark #自动化 #大数据

spark on k8s 镜像构建

spark on k8s 基础镜像的构建背景这是跑spark on k8s任务的基础镜像，用来指明executor pod的基础镜像构建步骤git clone spark特定的版本（加入是3.0.1版本），克隆完后，执行一下命令进行构建,构建出包含kubernetes模块的可运行包：./dev/make-distribution.sh --name 2.6.0-cdh5.13.1--pip --t

#大数据 #k8s #kubernetes +1

云原生（cloud native）是什么,怎么理解

很多人都会问“到底什么是云原生”，对此，CNCF 官方大使、阿里云容器平台高级技术专家张磊曾经做过精彩的解释。实际上，云原生是一条最佳路径或者最佳实践。更详细的说，云原生为用户指定了一条低心智负担的、敏捷的、能够以可扩展、可复制的方式最大化地利用云的能力、发挥云的价值的最佳路径。因此，云原生其实是一套指导进行软件架构设计的思想。按照这样的思想而设计出来的软件：首先，天然就“生在云上，长在云上”；其

#大数据 #容器

到底了