logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【MapReduce组件】

1、定义类继承Partitioner类2、重写getPartition方法,在该方法中对每一个K2和V2打标记,标记从0开始,0标记的键值对会被0编号的Reduce拉取进行聚合,1标记的键值对会被1编号的Reduce进行聚合/*** @param i Reduce的个数* @return*/@Override// 长度>=5的单词打标记为0// 长度小于5的单词打标记为1return 0;3、设置

#大数据#mapreduce#学习
【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hadoop】学习笔记

1、Hadoop是Apache旗下的使用Java语言开发的框架2、Hadoop内部包含三个组件:HDFS(分布式文件系统):解决海量数据存储MAPREDUCE(分布式运算编程框架):解决海量数据计算YARN(作业调度和集群资源管理的框架):解决资源任务调度。

#hadoop#大数据#hdfs
【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hive查询操作】

3、我们需要设置一个参数,不让SQL去元数据中获取行数,而是执行这条SQL对文件进行出来,自己来统计行数:set hive.compute.query.using.stats=false;1、在Hive的一些版本中,当使用聚合函数来统计时,发现SQL语句没有返回返回任何结果。2、因为Hive默认是去MySQL的元数据中获取文件的行数、但是元数据中默认行数都是0。

文章图片
#学习#大数据#hive
【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Zookeeper】学习笔记

ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。

文章图片
#服务器#java-zookeeper#zookeeper
【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Yarn组件】

Hadoop组件之间的关系Yarn的介绍1、Yarn是Hadoop2.x版本引入的一个新组件2、Yarn本身没有资源,是来管理集群资源,为分布式计算提供合理的资源分配方案3、Yarn可以让集群的资源能够统一,高效率给分配4、Yarn本身也是一个集群:主节点:ResourceManager从节点:NodeManagerYarn的集群架构。

#大数据#学习#hadoop
【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【KAFKA消费者的负载均衡机制】

Kafka的消费者负载均衡机制规定:1- 在一个消费者组内, 消费者的数量最多和所监听的topic的分片数量是相等的, 如果有大于分片数量的消费者, 一定会有消费者处于闲置的状态2- 在一个消费者组内, topic的一个分片的数据只能被一个消费者所接收, 不允许出现一个分片被多个消费者所接收的情况, 而一个消费者是可以接收多个分片的数据如何模拟点对点消费模式: 让所有监听这个topic的消费者,

【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hive函数】

【代码】【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hive函数】

文章图片
#hive#大数据#hadoop
【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【HDFS组件】

由于极端情况下,主NameNode发生了假死现象,临时假死,后来又复活,这样原来的主NameNode状态是Active,后来的备用NameNode状态也改为Active,这样就会有两个Active状态的NameNode,会造成元数据的管理混乱,就相当于一个大脑被拆分了。如果HDFS上有很多的小文件,会占用大量的NameNode元数据的内存空间,需要将这些小文件进行归档(打包),归档之后,相当于将多

#hdfs#大数据#学习
到底了