随着大数据的发展,数据湖时代正在到来,相关技术人才稀缺。越来越多的数据工程师和数据湖项目正在进入公众视野。也有开源产品,但并不是每个开源产品都值得尝试。让我们看看一些关于数据湖的开放项目,它们比付费项目更好,甚至更好。

1.严重

Hudi 是一个开源项目,提供表、事务、有效的 upserts/deletes、高级索引、流式摄取服务、数据集群/压缩优化和并发,同时将您的数据保持在开源文件格式。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--khCg9upF--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/g4meyvnmdek7kd3zypcv.png)

Apache Hudi 将核心仓库和数据库功能直接引入数据湖,这非常适合流式处理 wokload,使用户能够创建高效的增量批处理管道。此外,Hudi 的兼容性非常好,例如可以在任何云上使用,并且支持 Apache Spark、Flink、Presto、Trino、Hive 等众多查询引擎。

2.Iceberg

Iceberg 是一种用于海量分析数据集的开放表格式,具有 Schema 演化、隐藏分区、分区布局演化、时间旅行、版本回滚等。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--GXeahl5B--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/u09lml6sez9s87q3uq9x.png)

Iceberg 是为巨大的表而构建的,即使是那些无法使用分布式 SQL 引擎读取的表,也用于单个表可以包含数十 PB 数据的生产环境。 Iceberg 以其快速扫描计划、高级过滤、适用于任何云存储、可序列化隔离、多个并发写入者等而闻名。

p.s. 为

LakeSoul 是基于 Apache Spark 引擎构建的统一流和批处理表存储解决方案,支持可扩展的元数据管理、ACID 事务、高效灵活的 upsert 操作、模式演化以及流和批处理统一。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--OgwhX1gv--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/5njt3y069xdvgwm8ue7m.png)

LakeSoul 专注于行和列级别的增量更新插入、高并发写入和批量扫描云存储上的数据。云原生计算与存储分离架构使得部署非常简单,同时以更低的成本支持海量数据。

4.三角洲湖

Delta Lake 是一个开源存储框架,可以使用包括 Spark、PrestoDB、Flink、Trino 和 Hive 在内的计算引擎和适用于 Scala、Java、Rust、Ruby 和 Python 的 API 构建 Lakehouse 架构,提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(例如 S3、ADLS、GCS 和 HDFS)之上统一流式处理和批处理数据处理。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--FUmBhKSu--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/x8mh8iy9k9zwzxba7plx.png)

这是关于数据湖的项目的_comparison_。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--ycdHipuP--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/bnxj0dk65y985746yeqi.png)

_Hudi_更关注流数据的快速落地和延迟数据的修正。 _Iceberg_专注于提供统一的操作API,通过屏蔽底层数据存储格式的差异,形成标准、开放、通用的数据组织格,让不同的引擎可以通过API访问。 Lakesoul,现在基于spark,更专注于构建数据湖库的标准化管道。 Databricks 的开源项目 Delta Lake 倾向于解决 Spark 级别的 Parquet 和 ORC 等存储格式。

作为数据湖仓库的新人,以后会进一步了解数据湖仓库,在这里记录一下自己的学习过程。接下来_我将重点关注Hudi、Iceberg、Lakesoul、DeltaLake这四个开源产品,并编写一些代码和教程,_进行我的学习。希望我的记录能对你有所帮助或得到你的建议。

Logo

华为、百度、京东云现已入驻,来创建你的专属开发者社区吧!

更多推荐