logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据入门 | Hive】explain查询执行计划

Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,

文章图片
#大数据#hive#hadoop
【大数据入门 | Hive】DDL数据定义语言(表TABLE)

管理表意味着Hive会完全接管该表,包括元数据和HDFS中的数据。指定文件格式,常用的文件格式有,textfile(默认值),sequence file,orc file、parquet file等等。该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句放回的内容。外部表通常可用于处理其他工具上传的数据文件,对于外部表,Hiv

文章图片
#大数据#hive#hadoop
【大数据学习 | HBASE高级】storeFile文件的合并

注:Compaction的触发时机Major Compaction时间会持续比较长,整个过程会消耗大量系统资源,对上层业务有比较大的影响。通过CompactionChecker线程来定时检查是否需要执行compaction(RegionServer启动时在initializeThreads()中初始化),每隔10000毫秒(可配置)检查一次。是选取一些小的、相邻的StoreFile将他们合并成一个

文章图片
#大数据#hbase#oracle +3
【大数据学习 | Spark-Core】Spark的分区器(HashPartitioner和RangePartitioner)

工作的过程中我们会遇见数据分类的情况,想要根据自己的需求定义分区的规则,让符合规则的数据发送到不同的分区中,这个时候我们就需要自定义分区器了。定义分区器,让数据发送到不同的分区,从而不同的task任务输出的文件结果内容也不同# 自己创建数据data/a.txt# 需求就是将数据按照规则进行分发到不同的分区中# 存储的时候一个文件存储hello其他的文件存储tom jack分区器的定义需要实现分区器

文章图片
#大数据#spark#sqlite +4
【大数据学习 | Spark-Core】广播变量和累加器

对于executor端,driver端的变量是外部变量。excutor端修改了变量count,根本不会让driver端跟着修改。

文章图片
#学习#spark#大数据
【大数据学习 | Spark调优篇】常用的shuffle优化

shuffle是一个涉及到CPU(序列化反序列化)、网络IO(跨节点数据传输)以及磁盘IO(shuffle中间结果落盘)的操作。spark.reducer.maxSizeInFlight:reduce task的拉取缓存,默认48m。spark.shuffle.file.buffer:map task的写磁盘缓存,默认32k。spark.shuffle.io.maxRetries:拉取失败的最大重

文章图片
#大数据#spark#oracle +2
【大数据学习 | kafka高级部分】kafka的kraft集群

zookeeper可以实现controller的选举,并且记录topic和partition的元数据信息,帮助多个broker同步数据信息。首先要设定process.roles,可以人为指定每个人的角色,如果指定broker那么它永远是broker。在新版本中的kraft模式中可以这个管理和选举可以用kafka自己完成,而不再依赖zookeeper。一般一个集群中会设定大部分是broker,少量的

文章图片
#大数据#kafka#oracle +3
【大数据学习 | 面经】Spark的四种join方式

在Spark中,join操作用于合并两个数据集(如dataFrame和Dataset),其原理依赖于分布式计算的特性。Spark的join主要通过不同的连接策略来实现,选择哪种策略取决于多种因素,包括参数连接的数据集大小,是否进行了广播,是否有共同的分区分区键等。

文章图片
#大数据#学习#spark
【大数据学习 | kafka】消费者的分区分配规则

上面我们提到过,消费者有的时候会少于或者多于分区的个数,那么如果消费者少了有的消费者要消费多个分区的数据,如果消费者多了,有的消费者就可能没有分区的数据消费。那么这个关系是如何分配的呢?现在我们知道kafka中存在一个coordinator可以管理这么一堆消费者,它可以帮助一个组内的所有消费者进行分区的分配和对应。通过coordinator进行协调这个分配规则分为以下几种。

文章图片
#大数据#kafka#oracle +3
    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择