ztcheck 个人主页

@lifewujianqiang

ztcheck

2023-09-06 14:52:09 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark在k8s中的数据本地性

Spark在k8s中的数据本地性在k8s中，天然存在着数据隔离和网络隔离，这就造成了Spark在k8s中运行时，很难达到较好的数据本地性级别。常规意义上讲Spark的数据本地性，大部分是指的是Spark在读取数据时，第一个stage的数据本地性。这是由于Spark在读取数据时，首先会先去task执行位置寻找数据是否有缓存，其次会寻找数据是否存在优选位置【检查checkpointRDD的数据位置，主

Spark借助Alluxio保障在k8s中的数据本地性

Spark借助Alluxio保障在k8s中的数据本地性继续接着之前的文章谈一谈，Spark在k8s中的数据本地性。上一篇文章详见Spark在k8s中的数据本地性，这里开始实际操作。主要参考官网文档，下面主要记录几个需要注意的地方：开启短读【short-cuit】特性【默认开启】，短读特性是指client在读取数据时，如果数据在worker本地节点存在的话，client会直接读取数据而不是通过wor

github镜像站

由于工作中 Github 访问较多，但由于不可描述原因，国内访问速度很慢，甚至大部分时候直接不能访问。这里记录下在网上找到的镜像站，供后续备查。首选https://gh.api.99988866.xyz/网速还阔以，大概有300kb/s，使用方式如下：# 1. 文件下载加速直接在页面上输入待下载的地址，点击下载即可。# 2. git clone直接把域名添加到 git 地址前面，例如git c

#github #git

github镜像站

#github #git

通过 rest api的方式获取yarn app的相关信息

有些时候，我们需要使用 yarn api来获取应用的相关信息，主要的使用场景包括：数据质量管理，比如检查查询主键是否异常、记录数是否异常任务运行监控，比如获取任务的执行用户、执行时长、申请资源等等。对外开放的统一数据管理平台这里对自己做的相关测试，做一个简单记录，供后来查阅。接口类型hadoop 版本选择 3.0.1，不同的版本，接口查询/返回字段可能不同，详见官方文档。关于 yarn 应用状态的

Grafana 获取 api 的数据

最近在做数据质量管理，使用的组件是 Griffin 。在收集到数据后，还是想把数据用起来，比如说自动告警啥的。就想到了能否使用 Grafana 接入 Griffin 的数据，来自动告警，这里简单记录下实验过程。Grafana 接入 api 的数据Grafana 自带的 DataSource plugin（插件）不能接入 api 的数据，需要通过安装额外的插件。去Grafana plugin 的官网

#json

到底了