
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
背景:之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择使用oozie来对工作流进行调度监控。在此介绍一下oozie~注:我的 Oozie server version:[4.1.0 - CDH 5.13.0]一、官网介绍首先看官网首...
所用mysql版本为5.7.201.错误源头Error querying database.Cause:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException:Expression #5 of SELECT list is not in GROUP BY clause and contains nona...
背景:对于其他数据存储系统来说,统计表的行数是再基本不过的操作了,一般实现都非常简单;但对于HBase这种key-value存储结构的列式数据库,统计 RowCount 的方法却有好几种不同的花样,并且执行效率差别巨大!下面来研究下吧~测试集群:HBase1.2.0 - CDH5.13.0 四台服务器注:以下4种方法效率依次提高一、hbase-shell的count命令这是最简单直接...
背景:最近需要对业务系统数据进行ETL,供机器学习训练,我们需要对数据进行关联聚合,多行或多列数据转换为单行单列这种操作很常见;正好hive提供collect函数可以实现这种格式需求,我们在这整理下用法,顺便扩展一下~一、collect_set 和 collect_list 函数collect_set / collect_list(col)函数只接受基本数据类型,它的主要作用是...
背景:这个问题虽然常见,但想说清楚还真不容易,在这整理下思路聊聊吧。文章目录1.什么是进程?为什么要有进程?2.什么是线程?为什么要有线程?3.它们在Linux内核中实现方式有何不同?4.所以它们到底有哪些区别?附:我们通常所说的上下文切换具体指什么?1.什么是进程?为什么要有进程?进程有一个相当精简的解释:进程是对操作系统上正在运行程序的一个抽象。这个概念确实挺抽象,仔细想想却也挺...
背景:Centos7.3 Linux系统,服务器内网防火墙处于关闭状态;之前已经在三台服务器上安装好了ES集群(10.3.1.8、10.3.1.9、10.3.1.13),每台单实例,互相已配置SSH免密登录。服务器本身安装好了JDK1.8,配置好了环境变量。由于Logstash具备相当的独立性,我把它放在10.3.1.14这台机器上还没安装ES的可以参考我之前写的ES集群安装文档...
今天创建用户后切换用户出现 bash4.2-$ 这种情况,其实以前也遇到过,但没在意,现在解决下吧!一、源头创建一个系统用户,而我却要切换进去该用户进行操作,于是就这样了。二、原因及解决原来 useradd -r 创建的系统用户不可用于登录系统,和平常的直接 useradd xxx 结果完全不同。useradd xxx 会直接再 /home 下生成用户目录,仔细查看...
背景:最近安装了elasticSearch 5.4.0集群,但发现居然es不提供停止脚本!每次还得先jps或者ps aux找到es进程,再kill -9 杀死该进程,心累啊。在网上也看到过类似 elasticsearch-servicewrapper 这种服务化插件,但死活安装用不了。所以还是自己写个简单的停止脚本吧。//在es主目录的bin目录下:vim elasticse...
背景:最近项目的开发架构改为前后端分离模式;前端采用vue框架npm编译后在tomcat独立部署,前后端完全通过http请求接口的方式进行交互,页面控制权交给前端,后端只提供页面所需数据而已!由此带来的主要问题就是登录系统如何设计?以前项目都是通过Shiro框架内部控制cookie、session、登陆状态、页面权限等一系列资源,现在前端页面脱离后端项目后,我们要做出哪些改变呢?...
集群环境:CDH 5.13.0,Spark 2.2.0,Scala 2.11.0ps:没营养的错误。。有些难受。还是要多看看源码啊。。1.重头:Kafka整合SparkStreaming官网整合文档:http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html此处选择kafka 0.10版本...







