logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据】Docker部署HMS(Hive Metastore Service)并使用Trino访问Minio及HDFS

团队要升级大数据架构,需要摒弃hadoop,底层使用Minio做存储,应用层用trino火spark访问minio。在使用trino访问minio时,需要使用hive的metastore service,经过调查HMS(Hive Metastore Service)是可以独立于hive组件的,即不需要整体安装hive,只部署HMS就可以使用trino通过HMS来访问minio。

#docker#容器#hive +1
【kubernates】kubernates发布javaweb程序

结合上篇文章,从harbor下载镜像javaweb程序,并使用kubernates来部署镜像。一:kubernates集群kubernates集群已经安装好了,3个主节点,3个node节点Harbor镜像,拉取idat3镜像二:镜像拉取选择一个主节点10.38.150.61进控制台,拉取镜像#登入Harbordocker login -u admin -p Harbor12345 10.38.15

【trino ssl】使用rancher部署trino ssl到kubernestes

这边介绍trino在kubernetes上的安装,这个过程遇到了几个难缠的问题,耗费了3周左右,其实都是小问题,但是在部署的过程中没有考虑到,导致时间拉长了。一.打包镜像第一步使用trino363打包镜像,使用dockerfile,基本上与之前介绍的presto on kubernetes没有变化FROM pythonMAINTAINER 682556RUN useradd --create-ho

#kubernetes#docker
【spark operator】spark operator动态分配executor

之前在使用spark operator的时候必须指定executor的个数,在将任务发布到spark operator后,k8s会根据指定的个数启动executor,但是对于某些spark sql可能并不需要用到那么多executor,在此时executor的数量就不好控制了。根据pod启动的时间可以看出,先生成了2个executor,在16s后又生成了1个,最后完成,可以看出executor确实

#spark
【CI/CD】docker结合gitlab-runner自动发布

最近team内对k8s,docker比较感兴趣,想了解CI/CD相关的内容,我争取了该任务,做了些相关的工作,研究了大概一个礼拜,初步完成了从gitlab代码提交用docker自动发布版本的工作(还未涉及k8s),在此记录一 涉及到的软件版本版本介绍docker19.03.8不知道的不用往下看了git2.28.0 windows分布式版本控制系统gitlab12.5.5一个用于仓库管理系统的开源项

#ci/cd#docker#gitlab
【session共享】tomcat+redis实现session共享

做了k8s集群服务,免不了后端session共享的问题,此文简单记录tomcat+redis存储session的实现共享的操作。首先说明tomcat8的问题,我原来的tomcat版本是8,在网络上找了很多文章也尝试了操作的很多方法,结果证明tomcat8的redis session共享集成还存在问题,不能成功,因此还是别无他法的改成tomcat7.1)redis服务要起来,这里redis的安装启动

#redis#tomcat
【spark on kubernetes】spark operator部署安装 v1beta2-1.2.0-3.0.0

最近开始研究spark on kubernetes,经过调研,spark on kubernetes有两种方案,一种是官方的spark提供的原生支持按照spark-submit方式提交任务,第二种是google基于kubernetes提供的spark operator方案,还是按照kubernetes声明式语法提交任务。一. spark on kubernetes区别spark on k8sspa

#spark#kubernetes#big data
【presto on yarn】解决方案

一.前言项目架构升级,从hadoop2.7升到3.X,需要从批处理转变到实时流。大半年一直在做数据导入,没有很好的方案。目前在尝试的使用kafka分发文件,解码程序解码文件,落到flume,flume直接写hdfs。其中每天需要先建立hdfs文件目录,hive外部表挂载hdfs目录。因为patition目录结构有4层,导致小文件很多,写入速度很慢。一小时的数据流入需要四小时才能完全导入。我...

【presto】presto通过hive读取hdfs子目录数据问题

团队成员在做存储时遇到一个问题,在hdfs目录写了数据后,使用hive外部表挂载,挂载的目录如下/datamart-kafka-compare-OUT/datamart_kafka_compare_OUT/T_626而实际在T_626目录下还不是文件,还是目录(忽略红框这条,这条是后来从子目录拷贝出来的),如此在presto查询时,使用count查出来数据为0,而hive查询可以查出数据。pres

#hive#hdfs#hadoop
【Harbor Https】Harbor部署https并配置containerd拉取镜像

新项目,要接手另一个k8s集群,那个集群是kubernates1.24的rke2版本,里面已经不用docker容器了,使用了containerd容器来生成pod,因此需要变化我们以前的docker使用方式。containerd的镜像仓库配置地址在 /etc/rancher/rke2/registries.yaml,修改该文件,将harbor地址,证书配置进去,具体的配置参数和方法可以参考官方文档。

#https#kubernetes
    共 13 条
  • 1
  • 2
  • 请选择