
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python。Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标

即席查询工具:更快查询hive表格的工具。hive主要慢在查询和join时,hive使用MR引擎,这个引擎在计算时会将同一个计算步骤分成很多份,彼此之间独立,无论map完成还是reduce完成,数据都需要落盘,消耗大量的磁盘IO,导致hive查询速度很慢。自己做一个查询引擎,如presto。通过预计算,以空间换时间,提高查询速度,如kylin。

品牌复购率是指一段时间内重复购买某品牌的人数与购买过该品牌的人数的比值。重复购买即购买次数大于等于2,购买过即购买次数大于1。该指标为商品综合统计,包含每个spu被下单总次数和被下单总金额。要求统计最近30日发布的所有优惠券的领用情况和补贴率。补贴率:总优惠金额与使用优惠券的订单的原价金额的比值。补贴率:总优惠金额与参与活动的订单原价金额的比值。统计最近30日发布的所有活动的参与情况和补贴率。该需

业务数据方面DWD层的搭建主要注意点在于维度建模。业务数据中事实表分为三类- 事务型事实表:表格的数据每天只新增,不修改,当天的数据当天处理,彼此独立,互不影响。导入数据的思路:增量导入,所有这种表格都是按照日期分区,与ods层一致,所以直接将ods层的数据直接拿过来就可以。但是这种表格首日导入与每日导入不一样,第一天导入的时候包括所有的历史数据,在导入历史数据的时候需要按照事务完成的日期去动态分

一般不会对整条数据进行分析,会将整条数据拆分开,分别为common + actions【用户行为表】、common + displays【用户曝光页面表】、common + page【用户页面访问表】、common + err【用户错误表】

改进的方案:也可以不使用Flume的拦截器,可以使用kafka的拦截器实现TimeStamp时间戳,但是kafka拦截器的代码十分复杂,且会在执行过程中申请大量的对象,在数据高峰期,可能会导致大量的垃圾回收,性能不一定会比带File Channel的高。目前,HDFS相对地解决了数据的存储问题,但是查询要更加地要去注重效率问题,尽量少的join,对于数据冗余缺失越来越宽容,所以在数仓项目中,表格不

需要将以上正方形圈起来的八张表建模成一张商品维度表,主键为sku_id。圆形圈起来的几张表可选,此项目不考虑这几张表。以ods_sku_info(id,spu_id, price, sku_name, sku_desc, weight, **tm_id**, **category3_id**, is_sale, create_time, dt)表为基础去join其他表【表一】根据ods_sku_i

将首日数据导入(6-14),其他日期的数据不要导入,如果导入,关闭除HDFS的所有集群,删除hdfs上的warehouse,origin_data,将表重新建立一遍。gmall中有75张表。二 Azkaban部署1 上传tar包将azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-web-server-3.84.4.

环境准备:centos7.5,hadoop 3.1.3,jdk 1.8.0_161前言:经过半个月的时间,请教了往届的师兄师姐、身边的朋友、公司里面的维修人员、在网上找到的自学运维和阿里P7的两位老大哥,终于把平台在实验室环境下搭建成功。总结下来,实验室的环境不像自己在虚拟机中随意更改,所以这半个月都在修改环境,搭建集群只用不到一个小时的时间。从最初出现问题不知道是什么原因,到后来知道原因着手去修
将首日数据导入(6-14),其他日期的数据不要导入,如果导入,关闭除HDFS的所有集群,删除hdfs上的warehouse,origin_data,将表重新建立一遍。gmall中有75张表。二 Azkaban部署1 上传tar包将azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-web-server-3.84.4.








