logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark原理之Cache Table的工作原理及实现自动缓存重复Table Scan的思考

CACHE TABLE,可以让用户自定义要缓存的结果集,实际上就是一个临时表,不过数据存储在Spark集群内部,由Application所分配的executors管理。一旦定义了一个缓存表,就可以在SQL脚本中随处引用这个表名,提高数据检索速度,同时也会资源不必要的资源开销。

文章图片
#spark#缓存#开源软件
GoogleCloud Spark Operator Chart(未完待续)

Spark Application CRDGoogleCloud Spark Operator,基于Spark官方Kubernetes资源管理器的实现,实现了通过K8S接口提交Spark应用的功能。下面列出了一些官方Operator Chart中核心yaml文件的定义,可能与最新版本的文件有些不同,请读者自行更新。sparkapps-crd.yaml通过Opertaor方式提交Spark应...

#kubernetes#golang#spark
Spark on Kubernetes官方实现及基于K8S的Operator设计模式

简述Cloud云服务日益普遍,其后的支撑但是容器化的集群,所谓容器化(Containerization)就是将各种系统或用户服务,通过熟知的容器编排(Orchestration)工具,如docker、kubernetes等,部署运行,而不是直接与服务器直接打交道,容器化的服务大大减轻了服务部署、运维及资源控制等的繁琐程度,同时也使服务更加的健壮。而Spark 2.3之前的版本,如果想要使用容器化的

#kubernetes
到底了