logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

hiveSQL执行计划(explain使用全网最详细!!)

目录0-前言1-查看SQL的执行计划1.1-explain的用法2-explain使用场景2.1-join 语句会过滤 null 的值吗?2.2-group by 分组语句会进行排序吗?2.3-哪条sql执行效率高呢?3-explain dependency的用法3.1-识别看似等价的代码3.2-识别SQL读取数据范围的差别4-explain authorization 的用法5-总结0-前言Hi

#hive#sql#big data +2
Hive数据存储格式详细讲解(好文点赞收藏!)

目录0-前言1-TextFile2-SequenceFile3-RCFile4-ORCFile4.1-ORC相比较 RCFile 的优点4.2-ORC的基本结构4.3-ORC的数据类型4.4-ORC 的 ACID 事务的支持4.5-ORC 相关的 Hive 配置5-Parquet5.1-Parquet基本结构5.2-Parquet 的相关配置:5.3-使用Spark引擎时 Parquet 表的压缩

#hive#hdfs#大数据 +2
阿里云flink平台之电商场景实战之订单与销量统计

目录1- 背景信息2- 业务架构图3- 准备工作4- 编写业务逻辑5- 难点解析6- DEMO示例以及源代码7- 常见问题1- 背景信息以下案例是实时计算的合作伙伴袋鼠云通过阿里云实时计算来完成电商订单管理的案例。2- 业务架构图业务流程:使用数据传输服务DTS把您的数据同步到大数据总线(DataHub)。阿里云实时计算订阅大数据总线(DataHub)的数据进行实时计算。将实时数据插入到RDS的云

#阿里云#flink#sql
SQL进阶--6__如何使用hiveSQL提取JSON中的value值(超级详细!)

如何使用hiveSQL提取JSON中的value值0-需求1-Hive自带的json解析函数2-Hive解析json数组3-总结0-需求在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。1-Hive自带的json解析函数(1)ge

#sql#json#hive +2
kafka为什么使用消费者组

目录1- 消费者组的特点2- 消费者组的优势2.1- 高性能2.2- 消费模式灵活2.3- 故障容灾3 小结1- 消费者组的特点这是 kafka 集群的典型部署模式。消费组保证了:一个分区只可以被消费组中的一个消费者所消费一个消费组中的一个消费者可以消费多个分区,例如 C1 消费了 P0, P3。一个消费组中的不同消费者消费的分区一定不会重复,例如:所有消费者一起消费所有的分区,例如 C1 和 C

#kafka#分布式#java
实时数仓当前主流架构(精简总结收藏!!)

目录1-实时数仓架构特点1.1-数仓分层明显少于离线数仓1.2-数据存储的多样化1.3-技术难度远高于离线数仓2-实时数仓应用场景3-实时数仓架构3.1-lamdba架构3.2-kappa架构3.3-架构对比1-实时数仓架构特点1.1-数仓分层明显少于离线数仓一般实时数仓主要是公共层的模型层,缩短数据处理时间,保证数据及时性。1.2-数据存储的多样化离线数仓的数据一般存储于hdfs,但是对于实时数

#kafka#flink#hadoop +2
到底了