logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据面试】【框架】Flume:Source的断点续传、重复数据、Channel选择

〇、用途流式结构获取磁盘日志,拦截器过滤后,传递指定数据,写入HDFS或kafka一、组成-Source、Channel、Sink事务(put/take)1、Source---taildir source:(1)特点:断点续传+多目录(维护offset)产生自哪个版本-Apache Flume1.7,CDH 1.6(2)没有断点续传功能时如何使用?自定义方式实现(3)tai...

#大数据#面试#flume +2
【大数据面试】【项目开发经验】Hadoop、Flume、Kafka、Hive、MySQL、Sqoop、Azkaban、Spark...

主要内容:框架层面的调优、业务经验一、Hadoop1、Hadoop基准测试(HDFS的读写性能、MapReduce的计算能力测试)(1)测试内容:文件上传下载的时间(2)服务器有几个硬盘插槽2/4块问题:2块4T和一块8T的哪个贵2块4T的贵,可靠性更高一些(3)加了磁盘,默认情况下不会直接能够使用需要负载均衡,保证每个目录数据均衡开启数据均衡命令:bin/start-b...

#hadoop#大数据#hive +2
【大数据课程】高途课程实践-Day02:利用Hive SQL编写离线数仓实现可视化展示...

〇、概述1、实现内容使用Hive SQL编程,构造分层离线数仓并可以通过Quick Bi进行展示2、过程(1)数据接⼊到ODS层(2)进⾏ODS到DWD层数据开发(3)进⾏ODS到DIM层数据开发a.创建 【电商_商家维度表_⽇】表b.创建【电商_商品维度表_⽇】表c.创建【电商_⽤⼾维度表_⽇】表(4)进⾏DWS层数据开发(5)进⾏ADS应⽤层的数据开发a.看板_总指...

#大数据#hive#sql +2
【SQL】窗口函数:求数据的整体百分比、整体累计值,组内累计值和组内累计百分比...

〇、概述1、所需资料窗口函数实现组内百分比、累计值、累计百分比:https://blog.csdn.net/weixin_39751959/article/details/888289222、背景需求:不同场景不同规则下各区间内基线值的计算和MQ发送一、场景介绍二、SQL编写三、最终代码...

【数据库】PG/Oracle……不同数据库的字段类型转换方式介绍

一、日期转字符串(一)PG(二)Oracleselect to_char(sysdate,'MM') from dual 输出为:08二、字符串转日期(一)PG(二)Oracle三、数字转换

#数据库
【离线数仓】Day02-用户行为数据仓库:分层介绍、环境搭建(hive、tez)、LZO压缩、建表查询导入加索引、编写脚本...

一、数仓分层概念1、为什么要分层ODS:原始数据层DWD层:明细数据层DWS:服务数据层ADS:数据应用层2、数仓分层3、数据集市与数据仓库概念 4、数仓命名规范ODS层命名为odsDWD层命名为dwdDWS层命名为dwsADS层命名为ads临时表数据库命名为xxx_tmp备份数据数据库命名为xxx_bak二、数仓环境搭建1、Hive&My...

#hive#数据仓库#大数据 +2
【大数据面试】【项目】数仓架构:离线、实时、数仓输入输出、选型、版本、服务器、集群规模、数据保存、组件安装分配...

一、质疑分层不合理云上大数据数仓解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse1、离线数仓--基于hive2、实时数仓--基于kafka中间件每一步都会缓存至datahub二、数仓概念1、数仓的数据源和输出系统分别是什么数据源:用户行为数据、业务数据、爬虫(灰色地带,需要经过授权)数据输出:报表...

#大数据#面试#架构 +2
【大数据面试】【项目】数仓架构:离线、实时、数仓输入输出、选型、版本、服务器、集群规模、数据保存、组件安装分配...

一、质疑分层不合理云上大数据数仓解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse1、离线数仓--基于hive2、实时数仓--基于kafka中间件每一步都会缓存至datahub二、数仓概念1、数仓的数据源和输出系统分别是什么数据源:用户行为数据、业务数据、爬虫(灰色地带,需要经过授权)数据输出:报表...

#大数据#面试#架构 +2
【离线数仓】Day02-用户行为数据仓库:分层介绍、环境搭建(hive、tez)、LZO压缩、建表查询导入加索引、编写脚本...

一、数仓分层概念1、为什么要分层ODS:原始数据层DWD层:明细数据层DWS:服务数据层ADS:数据应用层2、数仓分层3、数据集市与数据仓库概念 4、数仓命名规范ODS层命名为odsDWD层命名为dwdDWS层命名为dwsADS层命名为ads临时表数据库命名为xxx_tmp备份数据数据库命名为xxx_bak二、数仓环境搭建1、Hive&My...

#hive#数据仓库#大数据 +2
    共 28 条
  • 1
  • 2
  • 3
  • 请选择