logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark集群安装部署

由于Spark仅仅是一种计算机框架,不负责数据的存储和管理,因此,通常都会将Spark和Hadoop进行统一部署,由Hadoop中的HDFS,HBase等组件负责数据的存储管理,Spark负责数据计算。本文章主要阐述在Standalone模式下,Spark集群的安装和配置。Yarn模式不需要启动spark集群,只需要启动hadoop集群即可,在启动hadoop集群之前,需要在yarn-site.x

文章图片
#spark#大数据#hadoop
Flink集群安装部署(Standalone,Yarn模式)

根据自己所需选择版本,一个是scala版本为2.11,一个是scala版本为2.12,我下载的是flink-1.14.0-bin-scala_2.12.tgz。在完成flink standalone集群部署后,使用Yarn模式提交作业,flink on yarn不需要启动flink集群,只需要启动hadoop集群即可。进入flink的conf目录,修改flink-conf.yaml文件,设置job

文章图片
#大数据#hadoop#flink
Hadoop3.x完全分布式搭建

如报以下错误,在环境变量添加以下内容:(添加完成后需分发至slave1,slave2且生效,分发,生效命令上面有)hadoop的配置文件都存放在hadoop目录下的/etc/hadoop,需要修改以下六个文件。从master登录到slave1,登录成功即免密成功。然后再启动,启动后查看各节点进程。

文章图片
#分布式#大数据#hadoop +1
Kafka安装部署

需要分别修改这两台kafka的config/server.properties文件,将broker.id分别改为 1,2,因为broker.id不能相同。将kafka的gz包上传到虚拟机的/opt/software目录,然后解压到/opt/servers。使用kafka消费者消费test主题的数据--from-beginning表示从头消费。进入kafka的config目录,修改server.pr

文章图片
#分布式#kafka
到底了