
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、数仓为什么分层、怎么分层1、数仓的作用2、数仓的架构3、数据采集层4、数据存储与分析对于hive的操作,最传统的方式是采用MapReduce也可以通过SparkSQL操作hive最常用的是使用Presto操作Hive5、数仓分层的好处,为什么要对其进行分层对数据仓库有一定的要求高效率:不同的粒度高质量:数据清洗、ETL加工,在各层进行数据治理,避免用户做...
一、大厂职级P7:年薪百万二、大数据发展1、职业路线和岗位角色2、大数据行业发展三、大数据的位置1、热门行业大数据承上启下2、三者关系啤酒和尿不湿:启发可以放在一块3、大数据作用杀熟:卖东西卖的贵反杀熟:卸载自己软件,安装其他软件,推送四、大数据理解1、数据时代IT-DT2、大数据特征ZB,世界所有体量,大概44ZB真实性:数据...
〇、概述旅游大数据实验以网络上的评论数据为例,进行数据的抓取、存储、分析和展示,通过该案例的学习,能够了解一般数据分析的基本流程和采用的基本分析技术,为将大数据技术应用到其他行业奠定基础。一、爬取数据我们将众誉旅游大数据网站上爬取其中一个景区的部分评论数据。爬取的众誉大数据页面的网址是http://zydsj.net/zydsj.html。界面如下:1、打开Pycharm双击桌面Py...
以网约车为模板(逸品出行)〇、前言1、今日内容:需求最重要技术为业务赋能2、明日内容一、项目须知---国家监管要求1、预防做完后悔---------国家监管信息需要符合技术要求计价规则模板/依据政府已经给变量起好名字订单三个状态:发起、成功、取消驾驶员定位信息---做派单3秒收集一次司...
〇、用途流式结构获取磁盘日志,拦截器过滤后,传递指定数据,写入HDFS或kafka一、组成-Source、Channel、Sink事务(put/take)1、Source---taildir source:(1)特点:断点续传+多目录(维护offset)产生自哪个版本-Apache Flume1.7,CDH 1.6(2)没有断点续传功能时如何使用?自定义方式实现(3)tai...
主要内容:框架层面的调优、业务经验一、Hadoop1、Hadoop基准测试(HDFS的读写性能、MapReduce的计算能力测试)(1)测试内容:文件上传下载的时间(2)服务器有几个硬盘插槽2/4块问题:2块4T和一块8T的哪个贵2块4T的贵,可靠性更高一些(3)加了磁盘,默认情况下不会直接能够使用需要负载均衡,保证每个目录数据均衡开启数据均衡命令:bin/start-b...
〇、概述1、实现内容使用Hive SQL编程,构造分层离线数仓并可以通过Quick Bi进行展示2、过程(1)数据接⼊到ODS层(2)进⾏ODS到DWD层数据开发(3)进⾏ODS到DIM层数据开发a.创建 【电商_商家维度表_⽇】表b.创建【电商_商品维度表_⽇】表c.创建【电商_⽤⼾维度表_⽇】表(4)进⾏DWS层数据开发(5)进⾏ADS应⽤层的数据开发a.看板_总指...
〇、概述1、所需资料窗口函数实现组内百分比、累计值、累计百分比:https://blog.csdn.net/weixin_39751959/article/details/888289222、背景需求:不同场景不同规则下各区间内基线值的计算和MQ发送一、场景介绍二、SQL编写三、最终代码...
一、日期转字符串(一)PG(二)Oracleselect to_char(sysdate,'MM') from dual 输出为:08二、字符串转日期(一)PG(二)Oracle三、数字转换
一、数仓分层概念1、为什么要分层ODS:原始数据层DWD层:明细数据层DWS:服务数据层ADS:数据应用层2、数仓分层3、数据集市与数据仓库概念 4、数仓命名规范ODS层命名为odsDWD层命名为dwdDWS层命名为dwsADS层命名为ads临时表数据库命名为xxx_tmp备份数据数据库命名为xxx_bak二、数仓环境搭建1、Hive&My...