Garyodd 个人主页

@GaryNB

Garyodd

2025-04-15 15:09:32 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【MapReduce组件】

1、定义类继承Partitioner类2、重写getPartition方法，在该方法中对每一个K2和V2打标记，标记从0开始，0标记的键值对会被0编号的Reduce拉取进行聚合，1标记的键值对会被1编号的Reduce进行聚合/*** @param i Reduce的个数* @return*/@Override// 长度>=5的单词打标记为0// 长度小于5的单词打标记为1return 0;3、设置

#大数据 #mapreduce #学习

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hadoop】学习笔记

1、Hadoop是Apache旗下的使用Java语言开发的框架2、Hadoop内部包含三个组件:HDFS（分布式文件系统）：解决海量数据存储MAPREDUCE（分布式运算编程框架）：解决海量数据计算YARN（作业调度和集群资源管理的框架）：解决资源任务调度。

#hadoop #大数据 #hdfs

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive查询操作】

3、我们需要设置一个参数，不让SQL去元数据中获取行数，而是执行这条SQL对文件进行出来，自己来统计行数：set hive.compute.query.using.stats=false;1、在Hive的一些版本中，当使用聚合函数来统计时，发现SQL语句没有返回返回任何结果。2、因为Hive默认是去MySQL的元数据中获取文件的行数、但是元数据中默认行数都是0。

#学习 #大数据 #hive

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Zookeeper】学习笔记

ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。

#服务器 #java-zookeeper #zookeeper

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Yarn组件】

Hadoop组件之间的关系Yarn的介绍1、Yarn是Hadoop2.x版本引入的一个新组件2、Yarn本身没有资源，是来管理集群资源，为分布式计算提供合理的资源分配方案3、Yarn可以让集群的资源能够统一，高效率给分配4、Yarn本身也是一个集群：主节点：ResourceManager从节点：NodeManagerYarn的集群架构。

#大数据 #学习 #hadoop

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA消费者的负载均衡机制】

Kafka的消费者负载均衡机制规定:1- 在一个消费者组内, 消费者的数量最多和所监听的topic的分片数量是相等的, 如果有大于分片数量的消费者, 一定会有消费者处于闲置的状态2- 在一个消费者组内, topic的一个分片的数据只能被一个消费者所接收, 不允许出现一个分片被多个消费者所接收的情况, 而一个消费者是可以接收多个分片的数据如何模拟点对点消费模式: 让所有监听这个topic的消费者,

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive函数】

【代码】【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive函数】

#hive #大数据 #hadoop

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HDFS组件】

由于极端情况下，主NameNode发生了假死现象，临时假死，后来又复活，这样原来的主NameNode状态是Active,后来的备用NameNode状态也改为Active，这样就会有两个Active状态的NameNode，会造成元数据的管理混乱，就相当于一个大脑被拆分了。如果HDFS上有很多的小文件，会占用大量的NameNode元数据的内存空间，需要将这些小文件进行归档（打包），归档之后，相当于将多

#hdfs #大数据 #学习

到底了