spark on k8s 部署的一点理解

提交后driver后，driver 需要创建pod的权限，这里可以使用的是 serviceAccout 的权限，创建权限以及如何指定serviceAccount 参考官网RBAC部分。spark on k8s 并不会启动一个常驻的集群，而是再 submit 提交任务时启动对应的pod作为driver 和 executor，任务结束后，这些pod 都会被释放。本地spark-submit 进程创

Jason不在家

754人浏览 · 2023-04-24 13:46:43

Jason不在家 · 2023-04-24 13:46:43 发布

Running Spark on Kubernetes - Spark 3.4.0 Documentation (apache.org)

前提条件

1. 本地有spark安装包，以便于执行 spark submit 命令

2. k8s 集群，以及本地的有 kubectl 并且配置的用户包含相关权限，具体可以参考官网

一些观念的转变

spark on k8s 并不会启动一个常驻的集群，而是再 submit 提交任务时启动对应的pod作为driver 和 executor，任务结束后，这些pod 都会被释放

./bin/spark-submit \
    --master k8s://https://<k8s-apiserver-host>:<k8s-apiserver-port> \
    --deploy-mode cluster \
    --name spark-pi \
    --class org.apache.spark.examples.SparkPi \
    --conf spark.executor.instances=5 \
    --conf spark.kubernetes.container.image=<spark-image> \
    local:///path/to/examples.jar

上面是官网上提供的启动示例，主要分为几步

1. 调用本地的 spark-submit 命令

2. spark-submit 进程请求 k8s API 创建dirver pod （使用本地的 ~/.kubi/config 获取权限）

3. driver pod 创建 executor pod 作为执行器来执行任务

4. 任务结束后pod会完成，释放资源，所以没有任务的时候不会占用资源

5. 实时任务则一直执行

关于spark配置

使用spark难免会需要一些 hdfs 、hive-metastore 等配置、xml 等，把这些配置打到镜像里显然可以，但很不灵活。

本地spark-submit 进程创建pod时会将本地的spark配置作为configMap挂在到pod中

所以只要维护好本地提交的spark环境即可，

可以先通过 kubectl describe pod ** 来找到对相应的configMap

然后通过 kubectl describe configmap 来确认配置

关于权限

本地提交是使用的用户权限，来自 ~/.kube/config

提交后driver后，driver 需要创建pod的权限，这里可以使用的是 serviceAccout 的权限，创建权限以及如何指定serviceAccount 参考官网RBAC部分

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub