随着大数据的发展,数据湖时代正在到来,相关技术人才稀缺。越来越多的数据工程师和数据湖项目正在进入公众视野。也有开源产品,但并不是每个开源产品都值得尝试。让我们看看一些关于数据湖的开放项目,它们比付费项目更好,甚至更好。

1。严重

Hudi 是一个开源项目,提供表、事务、有效的 upserts/deletes、高级索引、流式摄取服务、数据集群/压缩优化和并发,同时将您的数据保持在开源文件格式。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--zwVDuIZj--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/r9kev6zhowodva2wvufs.png)

Apache Hudi 将核心仓库和数据库功能直接引入数据湖,这非常适合流式处理 wokload,使用户能够创建高效的增量批处理管道。此外,Hudi 的兼容性非常好,例如可以在任何云上使用,并且支持 Apache Spark、Flink、Presto、Trino、Hive 等众多查询引擎。

2.Iceberg

Iceberg 是一种用于海量分析数据集的开放表格式,具有 Schema 演化、隐藏分区、分区布局演化、时间旅行、版本回滚等。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--y15H5Hmm--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/wtpvbsqprnmpnbf8q2xg.png)

Iceberg 是为大型表构建的,即使是那些无法使用分布式 SQL 引擎读取的表,也用于生产中,其中单个表可以包含数十 PB 的数据。 Iceberg 以其快速扫描计划、高级过滤、适用于任何云存储、可序列化隔离、多个并发写入者等而闻名。

p.s. 为

LakeSoul 是基于 Apache Spark 引擎构建的统一流和批处理表存储解决方案,支持可扩展的元数据管理、ACID 事务、高效灵活的 upsert 操作、模式演化以及流和批处理统一。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--hXY_WUyv--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/t2hf5i6n5k72ilgh91pi.png)

LakeSoul 专注于行和列级别的增量更新插入、高并发写入和批量扫描云存储上的数据。云原生计算与存储分离架构使得部署非常简单,同时以更低的成本支持海量数据。

4.delta湖

Delta Lake 是一个开源存储框架,可以使用包括 Spark、PrestoDB、Flink、Trino 和 Hive 在内的计算引擎和适用于 Scala、Java、Rust、Ruby 和 Python 的 API 构建 Lakehouse 架构,提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流式处理和批处理数据处理。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--zr1y_k0N--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/j5pmpg1s0nxgxzgfcb06.png)

这是关于数据湖的项目比较。

[图像描述](https://res.cloudinary.com/practicaldev/image/fetch/s--8aPLc41J--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/t7pv027h7wy6z6hry6g0.png)

Hudi 更侧重于流式数据的快速落地和延迟数据的修正。 Iceberg专注于提供统一的操作API,通过屏蔽底层数据存储格式的差异,形成标准、开放、通用的数据组织格,让不同的引擎可以通过API进行访问。 Lakesoul,现在基于 Spark,更侧重于构建标准化的数据湖库管道。 Delta Lake 是 Databricks 的一个开源项目,倾向于解决 Spark 级别的 Parquet 和 ORC 等存储格式。

作为数据湖仓库的新人,以后会进一步了解数据湖仓库,在这里记录一下自己的学习过程。接下来,我将重点关注这四个开源产品,Hudi、Iceberg、Lakesoul、DeltaLake,并编写一些代码和教程,进行学习。希望我的记录能对你有所帮助或得到你的建议。

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐