logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark在k8s中的数据本地性

Spark在k8s中的数据本地性在k8s中,天然存在着数据隔离和网络隔离,这就造成了Spark在k8s中运行时,很难达到较好的数据本地性级别。常规意义上讲Spark的数据本地性,大部分是指的是Spark在读取数据时,第一个stage的数据本地性。这是由于Spark在读取数据时,首先会先去task执行位置寻找数据是否有缓存,其次会寻找数据是否存在优选位置【检查checkpointRDD的数据位置,主

Spark借助Alluxio保障在k8s中的数据本地性

Spark借助Alluxio保障在k8s中的数据本地性继续接着之前的文章谈一谈,Spark在k8s中的数据本地性。上一篇文章详见Spark在k8s中的数据本地性,这里开始实际操作。主要参考官网文档,下面主要记录几个需要注意的地方:开启短读【short-cuit】特性【默认开启】,短读特性是指client在读取数据时,如果数据在worker本地节点存在的话,client会直接读取数据而不是通过wor

github镜像站

由于工作中 Github 访问较多,但由于不可描述原因,国内访问速度很慢,甚至大部分时候直接不能访问。这里记录下在网上找到的 镜像站,供后续备查。首选https://gh.api.99988866.xyz/网速还阔以,大概有300kb/s,使用方式如下:# 1. 文件下载加速直接在页面上输入待下载的地址,点击 下载即可。# 2. git clone直接把域名添加到 git 地址前面,例如git c

#github#git
github镜像站

由于工作中 Github 访问较多,但由于不可描述原因,国内访问速度很慢,甚至大部分时候直接不能访问。这里记录下在网上找到的 镜像站,供后续备查。首选https://gh.api.99988866.xyz/网速还阔以,大概有300kb/s,使用方式如下:# 1. 文件下载加速直接在页面上输入待下载的地址,点击 下载即可。# 2. git clone直接把域名添加到 git 地址前面,例如git c

#github#git
通过 rest api的方式获取yarn app的相关信息

有些时候,我们需要使用 yarn api来获取应用的相关信息,主要的使用场景包括:数据质量管理,比如检查查询主键是否异常、记录数是否异常任务运行监控,比如获取任务的执行用户、执行时长、申请资源等等。对外开放的统一数据管理平台这里对自己做的相关测试,做一个简单记录,供后来查阅。接口类型hadoop 版本选择 3.0.1,不同的版本,接口查询/返回字段可能不同,详见官方文档。关于 yarn 应用状态的

Grafana 获取 api 的数据

最近在做数据质量管理,使用的组件是 Griffin 。在收集到数据后,还是想把数据用起来,比如说自动告警啥的。就想到了能否使用 Grafana 接入 Griffin 的数据,来自动告警,这里简单记录下实验过程。Grafana 接入 api 的数据Grafana 自带的 DataSource plugin(插件)不能接入 api 的数据,需要通过安装额外的插件。去Grafana plugin 的官网

#json
到底了