logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用Mac版Docker搭建Hadoop集群(搭建集群与简单测试)

本文将开始正式介绍使用Mac版的Docker搭建Hadoop集群,基于的原始镜像是java:8,而不是hadoop,目的就是将虚拟机搭建集群的方式完全使用docker容器实现。如果是基于hadoop镜像,步骤将变得更加简单,可以参考docker 容器实现 hadoop分布式集群部署。前一篇文章已经做好了准备工作,接下来的工作主要是修改配置文件,假设当前已经在安装好的hadoop路径下,进入etc/

#hadoop#docker#big data
使用Mac版Docker搭建Hadoop集群(准备工作)

Hadoop是学大数据必须用到的框架,而hadoop集群搭建是首要步骤。一般的集群搭建都要用到虚拟机,而虚拟机软件下载安装破解本就是一件费时费力的事,而且一个虚拟机软件同时运行多个linux虚拟机可能会让电脑很卡,因此这里尝试使用docker容器构建hadoop集群,模拟真实生产场景中的多个节点。首先hadoop框架需要实现安装jdk,这里直接使用java:8镜像运行容器,可以直接拉取然后运行容器

#hadoop#docker
Kafka入门及生产者详解

传统定义:分布式的、基于发布/订阅模式的消息队列,主要用于大数据实时处理领域。发布/订阅模式中,发布者不会直接将消息发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息。官网最新定义:开源的分布式事件流平台(Event Streaming Platform),用于高性能数据管道、流分析、数据集成。

文章图片
#kafka#分布式
Kafka broker

1)如果Follower挂了,该Follower会立即被踢出isr,isr中其他Leader和Follower正常接受/同步数据,待该Follower恢复后,会读取上次的HW,将自己高于HW的数据丢弃,从HW开始与Leader同步,等到该Follower的LEO大于等于该Partition的HW,则重新加入isr队列。2)如果Leader挂了, Leader会立即被踢出isr,并且会选出一个新的L

文章图片
#kafka#分布式
Kafka消费者

消费者组内的消费者负责消费不同的分区,一个分区只能由组内一个消费者消费。手动提交offset:每次消费完数据之后由消费者自己提交offset信息,分为同步提交(阻塞当前线程,提交offset成功后才消费下一波数据,并且会有失败重试)和异步提交(发送了提交请求之后不管成功,直接消费下一波数据)。自动提交offset场景下,如果提交offset后,消费者又继续消费了后面的数据,然后挂了,此时下一个of

文章图片
#kafka#分布式#大数据 +1
Kafka入门及生产者详解

传统定义:分布式的、基于发布/订阅模式的消息队列,主要用于大数据实时处理领域。发布/订阅模式中,发布者不会直接将消息发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息。官网最新定义:开源的分布式事件流平台(Event Streaming Platform),用于高性能数据管道、流分析、数据集成。

文章图片
#kafka#分布式
SpringBoot的yaml配置文件的位置与静态资源

SpringBoot的yaml配置可以写在多个位置,比如自动生成的SpringBoot项目的配置文件就在resources目录下,还可以在resources目录下新建config目录,将配置文件放入其中;也可以放在项目级目录(即与src目录同级)或者项目级目录的config目录下。总之可以放在下图中的四个位置:以上四个位置的优先级依次是:/config/application.yaml >

#spring boot#java#spring +1
到底了