logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【电商数仓】数仓可视化之Spark历史服务器配置、Superset安装及使用

conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python。Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标

文章图片
#spark#服务器#大数据
【电商数仓】数仓即席查询之Kylin简介,安装和使用

即席查询工具:更快查询hive表格的工具。hive主要慢在查询和join时,hive使用MR引擎,这个引擎在计算时会将同一个计算步骤分成很多份,彼此之间独立,无论map完成还是reduce完成,数据都需要落盘,消耗大量的磁盘IO,导致hive查询速度很慢。自己做一个查询引擎,如presto。通过预计算,以空间换时间,提高查询速度,如kylin。

文章图片
#kylin#hive#大数据
【电商数仓】数仓搭建之数据应用(application data stpre -- ADS)层(数仓血缘图,ADS层之优惠券、活动、商品(一、二)、订单主题(一、二))

品牌复购率是指一段时间内重复购买某品牌的人数与购买过该品牌的人数的比值。重复购买即购买次数大于等于2,购买过即购买次数大于1。该指标为商品综合统计,包含每个spu被下单总次数和被下单总金额。要求统计最近30日发布的所有优惠券的领用情况和补贴率。补贴率:总优惠金额与使用优惠券的订单的原价金额的比值。补贴率:总优惠金额与参与活动的订单原价金额的比值。统计最近30日发布的所有活动的参与情况和补贴率。该需

文章图片
#数据库#大数据#sql
【电商数仓】数仓搭建之明细数据(data warehouse detail -- DWD)层(用户行为数据之曝光、错误日志表、数据加载脚本,业务数据之评价、订单事实表)

业务数据方面DWD层的搭建主要注意点在于维度建模。业务数据中事实表分为三类- 事务型事实表:表格的数据每天只新增,不修改,当天的数据当天处理,彼此独立,互不影响。导入数据的思路:增量导入,所有这种表格都是按照日期分区,与ods层一致,所以直接将ods层的数据直接拿过来就可以。但是这种表格首日导入与每日导入不一样,第一天导入的时候包括所有的历史数据,在导入历史数据的时候需要按照事务完成的日期去动态分

文章图片
#json#sql#java +2
【电商数仓】数仓搭建之明细数据(data warehouse detail -- DWD)层(日志格式解析、启动,页面,动作日志表)

一般不会对整条数据进行分析,会将整条数据拆分开,分别为common + actions【用户行为表】、common + displays【用户曝光页面表】、common + page【用户页面访问表】、common + err【用户错误表】

文章图片
#json#java#数据库
【电商数仓】日志采集架构设计原理、系统表结构解析、数仓分层相关概念、范式理论详解

改进的方案:也可以不使用Flume的拦截器,可以使用kafka的拦截器实现TimeStamp时间戳,但是kafka拦截器的代码十分复杂,且会在执行过程中申请大量的对象,在数据高峰期,可能会导致大量的垃圾回收,性能不一定会比带File Channel的高。目前,HDFS相对地解决了数据的存储问题,但是查询要更加地要去注重效率问题,尽量少的join,对于数据冗余缺失越来越宽容,所以在数仓项目中,表格不

文章图片
#kafka#大数据#分布式
【电商数仓】数仓搭建之DIM维度层(商品、优惠券、活动、地区、时间维度表)

需要将以上正方形圈起来的八张表建模成一张商品维度表,主键为sku_id。圆形圈起来的几张表可选,此项目不考虑这几张表。以ods_sku_info(id,spu_id, price, sku_name, sku_desc, weight, **tm_id**, **category3_id**, is_sale, create_time, dt)表为基础去join其他表【表一】根据ods_sku_i

文章图片
#大数据#数据库#数据挖掘
【电商数仓】数仓调度之全流程调度(调度数据准备、Azkaban部署、创建数据库和表、Sqoop导出脚本、编写工作流程配置文件、一些注意事项)

将首日数据导入(6-14),其他日期的数据不要导入,如果导入,关闭除HDFS的所有集群,删除hdfs上的warehouse,origin_data,将表重新建立一遍。gmall中有75张表。二 Azkaban部署1 上传tar包将azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-web-server-3.84.4.

文章图片
#数据库#sqoop#大数据
hadoop搭建【物理实验室环境搭建hadoop集群】

环境准备:centos7.5,hadoop 3.1.3,jdk 1.8.0_161前言:经过半个月的时间,请教了往届的师兄师姐、身边的朋友、公司里面的维修人员、在网上找到的自学运维和阿里P7的两位老大哥,终于把平台在实验室环境下搭建成功。总结下来,实验室的环境不像自己在虚拟机中随意更改,所以这半个月都在修改环境,搭建集群只用不到一个小时的时间。从最初出现问题不知道是什么原因,到后来知道原因着手去修

#hadoop#大数据#big data
【电商数仓】数仓调度之全流程调度(调度数据准备、Azkaban部署、创建数据库和表、Sqoop导出脚本、编写工作流程配置文件、一些注意事项)

将首日数据导入(6-14),其他日期的数据不要导入,如果导入,关闭除HDFS的所有集群,删除hdfs上的warehouse,origin_data,将表重新建立一遍。gmall中有75张表。二 Azkaban部署1 上传tar包将azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-web-server-3.84.4.

文章图片
#数据库#sqoop#大数据
    共 26 条
  • 1
  • 2
  • 3
  • 请选择