
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
〇、用途流式结构获取磁盘日志,拦截器过滤后,传递指定数据,写入HDFS或kafka一、组成-Source、Channel、Sink事务(put/take)1、Source---taildir source:(1)特点:断点续传+多目录(维护offset)产生自哪个版本-Apache Flume1.7,CDH 1.6(2)没有断点续传功能时如何使用?自定义方式实现(3)tai...
主要内容:框架层面的调优、业务经验一、Hadoop1、Hadoop基准测试(HDFS的读写性能、MapReduce的计算能力测试)(1)测试内容:文件上传下载的时间(2)服务器有几个硬盘插槽2/4块问题:2块4T和一块8T的哪个贵2块4T的贵,可靠性更高一些(3)加了磁盘,默认情况下不会直接能够使用需要负载均衡,保证每个目录数据均衡开启数据均衡命令:bin/start-b...
〇、概述1、实现内容使用Hive SQL编程,构造分层离线数仓并可以通过Quick Bi进行展示2、过程(1)数据接⼊到ODS层(2)进⾏ODS到DWD层数据开发(3)进⾏ODS到DIM层数据开发a.创建 【电商_商家维度表_⽇】表b.创建【电商_商品维度表_⽇】表c.创建【电商_⽤⼾维度表_⽇】表(4)进⾏DWS层数据开发(5)进⾏ADS应⽤层的数据开发a.看板_总指...
〇、概述1、所需资料窗口函数实现组内百分比、累计值、累计百分比:https://blog.csdn.net/weixin_39751959/article/details/888289222、背景需求:不同场景不同规则下各区间内基线值的计算和MQ发送一、场景介绍二、SQL编写三、最终代码...
一、日期转字符串(一)PG(二)Oracleselect to_char(sysdate,'MM') from dual 输出为:08二、字符串转日期(一)PG(二)Oracle三、数字转换
一、数仓分层概念1、为什么要分层ODS:原始数据层DWD层:明细数据层DWS:服务数据层ADS:数据应用层2、数仓分层3、数据集市与数据仓库概念 4、数仓命名规范ODS层命名为odsDWD层命名为dwdDWS层命名为dwsADS层命名为ads临时表数据库命名为xxx_tmp备份数据数据库命名为xxx_bak二、数仓环境搭建1、Hive&My...
一、质疑分层不合理云上大数据数仓解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse1、离线数仓--基于hive2、实时数仓--基于kafka中间件每一步都会缓存至datahub二、数仓概念1、数仓的数据源和输出系统分别是什么数据源:用户行为数据、业务数据、爬虫(灰色地带,需要经过授权)数据输出:报表...
一、质疑分层不合理云上大数据数仓解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse1、离线数仓--基于hive2、实时数仓--基于kafka中间件每一步都会缓存至datahub二、数仓概念1、数仓的数据源和输出系统分别是什么数据源:用户行为数据、业务数据、爬虫(灰色地带,需要经过授权)数据输出:报表...
一、数仓分层概念1、为什么要分层ODS:原始数据层DWD层:明细数据层DWS:服务数据层ADS:数据应用层2、数仓分层3、数据集市与数据仓库概念 4、数仓命名规范ODS层命名为odsDWD层命名为dwdDWS层命名为dwsADS层命名为ads临时表数据库命名为xxx_tmp备份数据数据库命名为xxx_bak二、数仓环境搭建1、Hive&My...
11111111111111111111111