logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hudi-数据写操作流程

概述在hudi数据湖框架中支持三种方式写入数据:UPSERT(插入更新)、INSERT(插入)和BULK INSERT(写排序)UPSERT:默认行为,数据先通过index打标(INSERT/UPDATE),有一些启发式算法决定消息的组织以优化文件的大小INSERT:跳过index,写入效率更高BULK_INSERT:写排序,对大数据量额hudi表初始化友好,对文件大小的限制best...

ClickHouse-数据一致性

  在生产环境中,数据一致性的重要性,不论如何强调都不过分。而 ClickHouse 在进行数据变更时,都会产生一个临时分区,而不会更改原始数据文件,对数据文件的修改操作会要等到数据合并时才进行。所以 ClickHouse 只能保证数据的最终一致性,而不能保证强一致性。很可能数据变更后,程序通过 ClickHouse 查到之前的错误数据。因此使用 ClickHouse ,要尽量避免数据的增删改..

#分布式#zookeeper#java +2
数据仓库-数据集市

数据仓库-数据集市概念数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立和控制。一个数据集市面向单一主题域,如销售、财务、市场等。数据集市的数据源可以是操作型系统(独立数据集市),也可以是企业级数据仓库(从属数据集市)。与数仓区别范围数仓:企业级数据集市:部门级或业务线主题数仓:多个主题数据集市:单一主题数据源数仓:遗留系统、事务系统、外部数据的多个数据源数...

#数据仓库#big data#数据挖掘 +2
数据仓库-维度模型(模型类型、建模过程)

数据仓库-维度模型描述Dimensional Modeling,简称DM,是一套技术和概念的集合,用于数据仓库设计核心概念事实表示对业务数据的度量通常是数字类型的,可以进行聚合和计算维度对观察数据的角度一组层次关系或描述信息,用来定义事实举例:销售金额是一个事实,而销售时间、销售的产品、购买的顾客、商店等都是销售事实的维度。维度模型按照业务流程领域即主题域简历,例如进货、销...

#数据仓库#数据挖掘#big data +2
数据仓库-数据清洗

数据仓库-数据清洗定义ETL抽取(Extract)、转换(Transform)、加载(Load)ETL的核心价值在"T"所代表的转换部分数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性为什么要进行数据清洗数据仓库中的数据是面向某一主题数据的集合,这些数据从多个业务系统中抽取而来,并且包含历史数据,因此就不可避免地出现某些数据是错误的,...

#数据仓库#数据挖掘#big data +2
数据挖掘-数据集成

数据集成数据挖掘经常需要数据集成--合并来自多个数据存储的数据。小心仔细的集成有助于减少结果数据集的冗余和不一致。这有助于提高后续挖掘过程的准确性和速度。数据语义的多样性和结构对数据集成提出了巨大的挑战。数据集成将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。1.实体识别问题来自多个信息源的等价实体如何才能匹配,...

#数据挖掘#数据仓库#数据分析 +1
数据挖掘-挖掘频繁模式、关联和相关性:基本概念和方法

挖掘频繁模式、关联和相关性:基本概念和方法频繁模式(frequent pattern)是频繁地出现在数据集中的模式(如项集、子序列或子结构)。例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合是频繁项集。一个子序列,如首先购买PC,然后是数码相机,再后是内存卡,如果它频繁地出现在购物历史数据库中,则称它为一个(频繁地)序列模式。一个子结构可能涉及不同的结构形式,如子图、子树或...

#数据挖掘#big data#人工智能 +2
到底了