logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

gitlab的docker镜像使用

本文得主要内容在于gitlab的使用上,基于的官方镜像,如果想自己新建镜像文件,则本文满足不了你的要求。下面我们来看下gitlab的docker镜像怎么用一、创建镜像容器1.获取镜像文件Gitlab在docker的镜像库有官方的镜像文件,直接下载即可docker pull gitlab-ce2.定义数据存放目录mkdir -p /srv/gitlab/configm...

#gitlab#docker
hive基于json格式创建hive表

创作不易,转载请注明出处。如有疑问,请加微信*wx15151889890***,谢谢。[本文链接:]由于前段的数据是json格式的,因此想基于json建表。导入json解析包首先需要引入json的hive解析包。我使用的是cdh5.13.3,在这里下载了hive-hcatalog-core的包hive-hcatalog-core下载地址hive里是使用命令添加jar包add jar...

#hive#json
json对象get空指针

在处理json对象的时候,如果我们获取的key值不在这个json里面,那么直接使用以下的语句:Json.get(key)直接get去获取对象的话就容易出现空指针的异常,如果要处理的话还需要捕捉异常。还有另一个方法也能实现get操作那就是opt方法根据我们的需要选择相应返回对象的方法,即使是不存在的对象也会返回一个空值,而不是直接报异常哦。      ...

#json
kafka异常 Received -1 when reading from channel, socket has likely been closed异常

创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。[本文链接:]https://blog.csdn.net/wx740851326/article/details/https://blog.csdn.net/wx740851326/article/details/84032755写代码的,先前是在代码里直接写的kafka信息,后来将kafka的信息改为从..

#kafka
flink读取kafka数据

 写文章不容易,喜欢的请赞一赞。如有疑问,请加微信wx15151889890,谢谢。flink相比于spark,还是比较好用的。话不多说上代码 //定义流处理环境final StreamExecutionEnvironment env = StreamExecutionEnvironment                .getExecutionEnvironment();...

#flink#hdfs#kafka
kafka消费者重复消费同一个topic

我的需求是我有多个消费者,需要重复消费某一个topic。场景是sparkstreaming消费kafka数据在这里sparkstream和kafka都是单节点的集群模式。同时起两个不同的groupid的应用,发现会发生后起来的应用消费不到数据。按理来讲不同的groupid属于不同的消费组,不会相互影响。由于是使用的cdh集成的kafka,不知道cdh里的zookeeper管理kafka的数...

#kafka
HDFS使用QJM实现高可用(一)

QJM的基本原理就是用2N+1台JournalNode存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了。当然这个算法所能容忍的是最多有N台机器挂掉,如果多于N台挂掉,这个算法就失效了。第一部分1.使用QJM来实现HA已经成为开源版的默认HA方案,那么,为什么用QJM的方式来实现HA?1)不需要配置额外的高共享存储,降低了复杂度和维护成本;

书单

1.决战大数据(升级版):大数据的关键思考车品觉2.数据即未来 大数据的王者之道美 布瑞恩戈德西陈斌译3.数据分析与机器学习实战 python3 2018年8月第一版龙马高新教育4.机器学习python实践魏贞原2018年1月第一版5.spark高级数据分析6.python核心编程第二版7.scala机器学习8.python数据分析与挖掘实战9.解析pyth...

到底了