
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Flink Sql介绍在实际开发过程中,我个人是以Stream API为主,Flink Sql写的不多,这里主要是参考原本项目代码写的,具体的细节,我也不是很熟悉,建议大家可以单独去了解一下Flink Sql;简单来说就是就是先通过Sql语句从对应的数据表(这里主要就是DWM层的订单宽表)来获取所需要的字段数据,形成动态表,然后将动态表再转化为流的形式,再存到ClickHouse中去。要注意的点:
DWD层日志数据分离在数仓搭建过程中,对日志数据做分离是非常有必要而且有意义的,我们可以通过把日志分为启动、隔离、曝光、异常、页面等日志,可以计算获取访客数量、独立访客数量、页面跳转、页面跳出等统计指标数据;那么在实时数仓和离线数仓中,这里有什么不同点呢?异同点分析在离线数仓的搭建过程中,我们可以获取一段时间内的离线日志数据,然后将日志数据进行过滤和分离,但是在实时数仓中,我们需要得到实时的流数据
从这篇内容开始就是项目的正式过程了,接下来我将以思路和项目过程为主来进行讲解,部分过程我也会对代码部分内容进行讲解。前提条件:对应的hadoop集群要有,具体配置方法和版本见第一节内容;phoenix、clickhouse、springboot、redis等框架的使用,我会在用到的时候再介绍,也可以自己根据下载包里的文档内容进行了解,文章不做详细介绍。第一部分 日志采集日志生成这里采用模拟jar包
这几天复习计网的东西去了~~不定期更新之所以单独将这个主题宽表拿出来讲,是因为他的设计过程非常具有代表性,可以参照这个表的设计方式去实现后续其他的主题宽表设计(后续有Flink Sql的实现过程、另讲);在该系列的第一篇文章中,我已经提高了各个层的设计目的;DWS层在本项目中的主要作用是为了ADS层的查询和后续可视化设计的,算是数据接口的直接数据来源,所以这里对实时性的要求很高,否则你再这里算个几
前提概要:之前我们已经实现了动态分流,即通过TableProcessFunction1类把维度数据和事实数据进行了分流处理,接下来就是把数据写入Hbase表和Kafka主题表中:hbaseDS.addSink(new DimSink());kafkaDS.addSink(kafkaSink);此时的动态分流后的2种数据类型大致为:在代码注释种我已经详尽地介绍了输出数据的情况和代码逻辑,接下来我会以
从这篇内容开始就是项目的正式过程了,接下来我将以思路和项目过程为主来进行讲解,部分过程我也会对代码部分内容进行讲解。前提条件:对应的hadoop集群要有,具体配置方法和版本见第一节内容;phoenix、clickhouse、springboot、redis等框架的使用,我会在用到的时候再介绍,也可以自己根据下载包里的文档内容进行了解,文章不做详细介绍。第一部分 日志采集日志生成这里采用模拟jar包
DWD层业务数据分流回顾一下之前业务数据的处理;首先把脚本生成的业务数据发送到MySql数据库中,在表gmall0709中可以看到数据:这里就是生成的对应数据表,然后通过Maxwell把数据输入到Kafka中,保存在ods_base_db_m主题中;此时我们需要把这个kafka主题中的数据进行过滤和分流处理,过滤处理很容易,这里我们过滤掉data为空,或者是长度<3的数据内容,当然这个数据过
介绍本文这里的hadoop3.1.3的集群仅仅指hadoop本身的搭建,不涉及到其他框架整合;Flink实时电商实战项目中HDFS部分是基于此版本,B站上有这个版本的安装视频:Flink实时电商项目实战项目框架整合下载提取码:whqf搭配环境VMware16(注意不要使用15,容易蓝屏,如果出现蓝屏,大概率是系统兼容性问题,建议改用16,激活码搜索即可,很方便)安装硬件,安装虚拟机;账户:root

Spark一般有四种安装模式:Local、Standalone、Yarn、Mesos/K8S部署模式;这里讲解前三种模式的部署和安装方式:本文讲解内容以Spark-3.0.0版本为例:本文内容参照尚硅谷Spark-3.0.0版本安装资料,在自己的集群上搭建完成;仅供复习时使用,如有搭建需求,请根据自己的集群修改对应文件名。1.1、Local(本地)模式1.1.1、 解压缩文件将 spark-3.0
DWD层业务数据分流回顾一下之前业务数据的处理;首先把脚本生成的业务数据发送到MySql数据库中,在表gmall0709中可以看到数据:这里就是生成的对应数据表,然后通过Maxwell把数据输入到Kafka中,保存在ods_base_db_m主题中;此时我们需要把这个kafka主题中的数据进行过滤和分流处理,过滤处理很容易,这里我们过滤掉data为空,或者是长度<3的数据内容,当然这个数据过