logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据仓库的数据体系和数据加工链路

数据仓库的数据体系和数据加工链路1. 数据体系数据仓库的数据体系主要分为数据采集、数据计算、数据服务和数据应用。1)数据采集层数据采集体系包括web端日志采集技术方案和app端日志采集技术方案。数据采集分为日志采集和数据库数据同步两部分。对大数据系统而言,数据同步指数据从业务系统同步进入数据仓库和数据从数据仓库同步进入数据服务和数据应用两个方面。2)数据计算层数据计算层包括Maxcompute离线

#数据仓库#大数据
python3 dataframe中列数据为字典,拆分成多列或转存某个关键字的值

python3 dataframe中列数据为字典,拆分成多列或转存某个关键字的值文章地址

#python
数据管道(data pipeline)和ETL管道(ETL pipeline)的概念和区别

数据管道(data pipeline)和ETL管道(ETL pipeline)的概念和区别ETL管道:将数据从系统中抽取出来加载到数据仓库或者数据库中,再对其进行转换,这个过程就是ETL管道。数据管道是比ETL管道更通用的概念,只要是实现系统之间数据迁移的处理过程就可以称为数据管道。数据管道并不一定以将数据加载到数据库或数据仓库为结束,举个例子,它也可以通过webhook的方式来触发其他业务系统的

#数据仓库#数据库#大数据
hive中的Coalesce()函数,sort_array()函数

1.学习了hive中的Coalesce()函数。Coalesce函数作用是将返回传入的参数中第一个非null的值,参数使用的场合为:假如字段的值是null,想其返回的不是null,而是0或其他值时。比如SELECT COALESCE(NULL, NULL, 1);– Return 1SELECT COALESCE(NULL, NULL, NULL, NULL, NULL, NULL, NULL,

#hive#mysql
机器学习AUC指标的理解

AUC在机器学习领域中是一种模型评估指标,是指模型ROC曲线下的面积。分类器效果月AUC值成正比。即当分类器的分类效果越好的时候,ROC曲线下面积越大,AUC越大。从下面三张图看到,分类器效果越好(正负样本的分布的均值离得越远),AUC值越大(ROC曲线下的面积)其中,ROC是混淆矩阵中,以FPR为横坐标,TPR为纵坐标形成的曲线。...

文章图片
#机器学习#人工智能
大数据中Map端数据倾斜

大数据中Map端数据倾斜map端是mapreduce任务的起始阶段,map端的主要功能是从磁盘中将数据读入内存。在map端读数据时,由于读入数据的文件大小分布不均匀,因此会导致有些map instance读取并且处理的数据特别多,而有些map instance处理的数据特别少,造成map端长尾。具体分为以下两种情况:1) 上游表文件的大小特别不均匀,并且小文件特别多(读取的记录数少),导致当前表m

#spark#大数据
数据仓库中元数据的定义、用途及元数据的分类。

数据仓库中元数据的定义、用途及元数据的分类(1)元数据的定义:元数据是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。元数据可以帮助数据仓库管理员和开发人员快速找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。(2)元数据的用途:通过元数

#数据仓库#大数据
数据仓库——存储优化管理方法

数据仓库——存储优化管理方法存储优化管理的方式包括数据压缩、数据重分布、存储治理项优化、生命周期管理等方法。数据压缩在分布式文件系统中,会将数据存储3份,这意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。使用盘古RAID file格式的文件,将存储比从1:3提高至1:1.5。这样做的缺点是数据块损坏时的修复时间比原来更长,读的性能也有损失。数据重分布由于每个表的数据分布不同,插入顺序不同

#数据仓库#数据库#大数据
数据仓库——ODS/stg层数据漂移问题

数据仓库——ODS/stg层数据漂移问题数据漂移是ODS数据的一个顽疾,通常是指ODS表的同一个业务日期数据中包含前一天或后一天凌晨附近的数据或者丢失当天变更数据。数据漂移的处理方式:1)多获取后一天的数据2)通过多个时间戳字段限制时间来获取相对准确的数据。...

#数据仓库
数据仓库的四个特性、主流架构

数据仓库的四个特性1.面向主题:数据仓库的数据按照一定的主题域进行组织。2.集成性:数据仓库的数据是从原有分散的数据库中抽取、清洗、消除数据的不一致性。(不一致性来自于异构的数据源)3.不可更新:企业主要是利用数据仓库中的历史数据进行分析决策,所以数仓中的数据很少会被修改或删除,只需定期加载和刷新。4.反映历史变化:数据仓库中有一个时间维度,记录数据的历史轨迹,通过历史数据,可以做定量分析和预测数

#数据仓库
    共 13 条
  • 1
  • 2
  • 请选择