logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark SQL使用get_json_object函数解析json

get_json_object(string json_string, string path)说明:第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组;如果输入的json字符串无效,那么返回NULL。举例:数据准备如下:使用实例:with data_table as (select"{\"timestamp\": \"2021-03-23T

Flink SQL Kafka写入Hudi详解

Flink读写Hudi案列详解

文章图片
#大数据
从0到1搭建数据湖Hudi环境

一、目标在本地构建可以跑Flink-Hudi、Spark-Hudi等demo的环境,本地环境是arm64架构的M1芯片,所以比较特殊,如果采用Hudi官网的docker搭建,目前不支持,本人也在Hudi的github上提过此类需求,虽得到了响应,但还是在部署的时候会出问题,然后基于其实Hudi就是一种对存储格式的管理模式,此格式可以是HDFS,也可以是各大云厂商的文件存储系统,例如阿里云的OSS,

文章图片
#大数据
Push master to origin/master was rejected by remote

很多人 ,百度半天网上都是教你们按照他们的解决方案来,但你们真的懂原因吗?其实不见其然,所以本篇就告诉你怎么去找到问题的具体的报错和解决它。现象描述很多人都是本地pull正常,push报错,而且基本都是报Push master to origin/master was rejected by remote这个错误,其实,大家可以不用网上搜索的,因为git本地的运行日志告诉你答案了,你只需要在Ide

#git#github
Flink写入Hbase

1、在构建实时数仓的时候,通常会把dim层的数据存入hbase,这样做的好处一个是利用hbase的幂等性的功能,维度表基本上都会有数据唯一性,第二个在实时性要求的场景下,可以做数据点查关联,效率上得到一定的保障。部分sink代码如下:private transient Connection hbaseConnection;private transient Connection hbaseConn

文章图片
#hbase#flink#数据库
Flink利用KafkaSource读取Kafka数据做为数据源

虎年第一篇:在Flink的1.13版本以后,官方对FlinkKafkaConsumer类进行了过期设置,所以最好用KafkaSource来进行读取数据。pom文件<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12</art

文章图片
#kafka#flink#分布式
从0到1搭建数据湖Hudi环境

一、目标在本地构建可以跑Flink-Hudi、Spark-Hudi等demo的环境,本地环境是arm64架构的M1芯片,所以比较特殊,如果采用Hudi官网的docker搭建,目前不支持,本人也在Hudi的github上提过此类需求,虽得到了响应,但还是在部署的时候会出问题,然后基于其实Hudi就是一种对存储格式的管理模式,此格式可以是HDFS,也可以是各大云厂商的文件存储系统,例如阿里云的OSS,

文章图片
#大数据
Hive Metastore详解大全

1、何为Hive MetaStore?

#hive
数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi

数据湖概念首次于2010年被James Dixon在其博客帖子(Pentaho, Hadoop, and Data Lakes | James Dixon's Blog)中提及 :数据湖的权威定义(来自维基百科):数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(

文章图片
#大数据
到底了