logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据学习 | Zookeeper】Zookeeper的选举机制

zookeeper的选举机制分为第一次启动和非第一次启动两种情况。

文章图片
#zookeeper#mysql#json +2
【大数据学习 | kafka高级部分】kafka中的选举机制

第一个就是controller的选举,这个选举是借助于zookeeper的独享锁实现的,先启动的broker会在zookeeper的/contoller节点上面增加一个broker信息,谁创建成功了谁就是主节点,其他的broker会启动watch监视器进行监听其中的数据变化,如果宕机了其他的节点会抢占这个节点选举为controller节点。这就是主分区宕机后的选举实现,但是选择的节点一般都是数据比

文章图片
#大数据#学习#kafka
【大数据入门 | Hive】explain查询执行计划

Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,

文章图片
#大数据#hive#hadoop
【大数据入门 | Hive】DDL数据定义语言(表TABLE)

管理表意味着Hive会完全接管该表,包括元数据和HDFS中的数据。指定文件格式,常用的文件格式有,textfile(默认值),sequence file,orc file、parquet file等等。该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句放回的内容。外部表通常可用于处理其他工具上传的数据文件,对于外部表,Hiv

文章图片
#大数据#hive#hadoop
【大数据学习 | HBASE高级】storeFile文件的合并

注:Compaction的触发时机Major Compaction时间会持续比较长,整个过程会消耗大量系统资源,对上层业务有比较大的影响。通过CompactionChecker线程来定时检查是否需要执行compaction(RegionServer启动时在initializeThreads()中初始化),每隔10000毫秒(可配置)检查一次。是选取一些小的、相邻的StoreFile将他们合并成一个

文章图片
#大数据#hbase#oracle +3
【大数据学习 | Spark-Core】Spark的分区器(HashPartitioner和RangePartitioner)

工作的过程中我们会遇见数据分类的情况,想要根据自己的需求定义分区的规则,让符合规则的数据发送到不同的分区中,这个时候我们就需要自定义分区器了。定义分区器,让数据发送到不同的分区,从而不同的task任务输出的文件结果内容也不同# 自己创建数据data/a.txt# 需求就是将数据按照规则进行分发到不同的分区中# 存储的时候一个文件存储hello其他的文件存储tom jack分区器的定义需要实现分区器

文章图片
#大数据#spark#sqlite +4
【大数据学习 | Spark-Core】广播变量和累加器

对于executor端,driver端的变量是外部变量。excutor端修改了变量count,根本不会让driver端跟着修改。

文章图片
#学习#spark#大数据
【大数据学习 | Spark调优篇】常用的shuffle优化

shuffle是一个涉及到CPU(序列化反序列化)、网络IO(跨节点数据传输)以及磁盘IO(shuffle中间结果落盘)的操作。spark.reducer.maxSizeInFlight:reduce task的拉取缓存,默认48m。spark.shuffle.file.buffer:map task的写磁盘缓存,默认32k。spark.shuffle.io.maxRetries:拉取失败的最大重

文章图片
#大数据#spark#oracle +2
【大数据学习 | kafka高级部分】kafka的kraft集群

zookeeper可以实现controller的选举,并且记录topic和partition的元数据信息,帮助多个broker同步数据信息。首先要设定process.roles,可以人为指定每个人的角色,如果指定broker那么它永远是broker。在新版本中的kraft模式中可以这个管理和选举可以用kafka自己完成,而不再依赖zookeeper。一般一个集群中会设定大部分是broker,少量的

文章图片
#大数据#kafka#oracle +3
    共 30 条
  • 1
  • 2
  • 3
  • 请选择