秦拿希个人主页

@w8998036

秦拿希

2022-06-24 21:19:04 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据】Docker部署HMS(Hive Metastore Service)并使用Trino访问Minio及HDFS

团队要升级大数据架构，需要摒弃hadoop，底层使用Minio做存储，应用层用trino火spark访问minio。在使用trino访问minio时，需要使用hive的metastore service，经过调查HMS(Hive Metastore Service)是可以独立于hive组件的，即不需要整体安装hive，只部署HMS就可以使用trino通过HMS来访问minio。

#docker #容器 #hive +1

【kubernates】kubernates发布javaweb程序

结合上篇文章，从harbor下载镜像javaweb程序，并使用kubernates来部署镜像。一：kubernates集群kubernates集群已经安装好了,3个主节点，3个node节点Harbor镜像，拉取idat3镜像二：镜像拉取选择一个主节点10.38.150.61进控制台，拉取镜像#登入Harbordocker login -u admin -p Harbor12345 10.38.15

【trino ssl】使用rancher部署trino ssl到kubernestes

这边介绍trino在kubernetes上的安装，这个过程遇到了几个难缠的问题，耗费了3周左右，其实都是小问题，但是在部署的过程中没有考虑到，导致时间拉长了。一.打包镜像第一步使用trino363打包镜像，使用dockerfile，基本上与之前介绍的presto on kubernetes没有变化FROM pythonMAINTAINER 682556RUN useradd --create-ho

#kubernetes #docker

【spark operator】spark operator动态分配executor

之前在使用spark operator的时候必须指定executor的个数，在将任务发布到spark operator后，k8s会根据指定的个数启动executor，但是对于某些spark sql可能并不需要用到那么多executor，在此时executor的数量就不好控制了。根据pod启动的时间可以看出，先生成了2个executor，在16s后又生成了1个，最后完成，可以看出executor确实

#spark

【CI/CD】docker结合gitlab-runner自动发布

最近team内对k8s,docker比较感兴趣，想了解CI/CD相关的内容，我争取了该任务，做了些相关的工作，研究了大概一个礼拜，初步完成了从gitlab代码提交用docker自动发布版本的工作（还未涉及k8s），在此记录一涉及到的软件版本版本介绍docker19.03.8不知道的不用往下看了git2.28.0 windows分布式版本控制系统gitlab12.5.5一个用于仓库管理系统的开源项

#ci/cd #docker #gitlab

【session共享】tomcat+redis实现session共享

做了k8s集群服务，免不了后端session共享的问题，此文简单记录tomcat+redis存储session的实现共享的操作。首先说明tomcat8的问题，我原来的tomcat版本是8，在网络上找了很多文章也尝试了操作的很多方法，结果证明tomcat8的redis session共享集成还存在问题，不能成功，因此还是别无他法的改成tomcat7.1）redis服务要起来，这里redis的安装启动

#redis #tomcat

【spark on kubernetes】spark operator部署安装 v1beta2-1.2.0-3.0.0

最近开始研究spark on kubernetes，经过调研，spark on kubernetes有两种方案，一种是官方的spark提供的原生支持按照spark-submit方式提交任务，第二种是google基于kubernetes提供的spark operator方案，还是按照kubernetes声明式语法提交任务。一. spark on kubernetes区别spark on k8sspa

#spark #kubernetes #big data

【presto on yarn】解决方案

一.前言项目架构升级，从hadoop2.7升到3.X，需要从批处理转变到实时流。大半年一直在做数据导入，没有很好的方案。目前在尝试的使用kafka分发文件，解码程序解码文件，落到flume，flume直接写hdfs。其中每天需要先建立hdfs文件目录，hive外部表挂载hdfs目录。因为patition目录结构有4层，导致小文件很多，写入速度很慢。一小时的数据流入需要四小时才能完全导入。我...

【presto】presto通过hive读取hdfs子目录数据问题

团队成员在做存储时遇到一个问题，在hdfs目录写了数据后，使用hive外部表挂载，挂载的目录如下/datamart-kafka-compare-OUT/datamart_kafka_compare_OUT/T_626而实际在T_626目录下还不是文件，还是目录（忽略红框这条，这条是后来从子目录拷贝出来的），如此在presto查询时，使用count查出来数据为0，而hive查询可以查出数据。pres

#hive #hdfs #hadoop

【Harbor Https】Harbor部署https并配置containerd拉取镜像

新项目，要接手另一个k8s集群，那个集群是kubernates1.24的rke2版本，里面已经不用docker容器了，使用了containerd容器来生成pod，因此需要变化我们以前的docker使用方式。containerd的镜像仓库配置地址在 /etc/rancher/rke2/registries.yaml，修改该文件，将harbor地址，证书配置进去，具体的配置参数和方法可以参考官方文档。

#https #kubernetes

共 13 条

请选择