logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SparkRDD算子(一)(java和scala版本)(parallelize map flatMap subtract cartesian mapToPair flatMapToPair)

Spark学习——常用RDD算子汇总1. parallelizejava版本2. makeRDD只有scala版本3. textFilescala版本java版本4. filterscala版本java版本5. mapscala版本java版本6. flatMapscala版本java版本,spark2.0以上7. distinctscala版本java版本8. unionscala版本java版

Linux Centos7与辅助工具MobaXter连接使用的方法(有安装包)

在打开虚拟机的基础上点击Session点击SSH输入自己的虚拟机IP地址第二个点击可以输入账户密码,可实现免密登录输入别名虚拟机用户名和密码选择刚才设置的账户完成以上步骤进行ok列表多出了刚才连接的虚拟机双击出现如图界面即是Moba 与虚拟机连接成功!...

hadoop高可用集群环境搭建(ntp的时间同步配置+有zookeeper安装包,完整的高可用配置文件步骤)

没有完成hadoop 3台虚拟机集群搭建的可以先看以下两篇博客hadoop学习——伪分布式环境搭建(有安装包 非常详细)hadoop集群搭建——3台虚拟机1、当搭建完成hadoop的集群搭建之后,我们先来做时区同步在三台虚拟机上都使用以下命令安装 ntpyum -y install ntp然后在三台机器上都用以下命令设置ntp开机自启chkconfig ntpd on下面修改主机的ntp.conf

#hadoop#大数据#linux
kafka2.11安装(集群)以及介绍使用(有安装包)

需要事先安装好zookeeper:可参考zookeeper安装详情kafka2.11下载链接: https://pan.baidu.com/s/1P1WVr-KCeoaGYkNkikSkIw提取码: 3ryz1.kafka2.11安装文件配置tar-zxvf kafka_2.11-2.0.0.tgz -C /opt//解压mv kafka_2.11-2.0.0/ kafka211///改名cd /

#kafka
Kafka Stream将一个topic的数据进行业务处理写入到另一个topic中(拆分开每个id的分类关系)

kafka stream 将一个topic里的消息进行业务处理,再写入到另一个topic进行消费(拆分开每个id的分类关系)以 12112,1211,yes 的格式消费出来代码:package cn.bright.kafka;import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.*;i

flume监控采集数据导入到kafka中topic进行消费

flume监控采集到的数据到kafka中topic进行消费1.创建kafka的topic2.创建并编辑flume脚本3.执行flume脚本4.复制数据到被flume监控的路径5.查看队列分区信息5.1查看队列信息数6.消费消息7.删除topic1.创建kafka的topickafka-topics.sh --create --zookeeper 192.168.116.60:2181 --topi

#flume#kafka
SparkRDD算子(二)(键值对聚合操作 combineByKey)

Spark RDD算子 键值对聚合操作 combineByKeycombineByKeyScala版本java版本combineByKey聚合数据一般在集中式数据比较方便,如果涉及到分布式的数据集,该如何去实现呢。这里介绍一下combineByKey, 这个是各种聚集操作的鼻祖,应该要好好了解一下,参考scala API简要介绍def combineByKey[C](createCombiner:

#spark
Linux虚拟机扩容磁盘详细教程

最近在VMware虚拟机上使用Centos,用着用着,发现虚拟机的磁盘空间不够了。通过以下步骤成功扩展了根目录的磁盘空间1、Centos 关机,选择编辑虚拟机设置,硬盘,在实用工具那里选择“扩展”填写扩展的磁盘容量点击扩展后,VMware会提示磁盘已成功扩展。您必须从客户机操作系统内部对磁盘重新进行分区和扩展文件系统。也就是说,这里扩展的磁盘空间,在操作系统里面还不可用,还没生效,需要在操作系统里

#linux
到底了