4 个你应该尝试的关于大数据的最佳开源项目

BIGdd

18人浏览 · 2022-08-15 05:23:38

BIGdd · 2022-08-15 05:23:38 发布

随着大数据的发展,数据湖时代正在到来,相关技术人才稀缺。越来越多的数据工程师和数据湖项目正在进入公众视野。也有开源产品,但并不是每个开源产品都值得尝试。让我们看看一些关于数据湖的开放项目,它们比付费项目更好,甚至更好。

1.严重

Hudi 是一个开源项目,提供表、事务、有效的 upserts/deletes、高级索引、流式摄取服务、数据集群/压缩优化和并发,同时将您的数据保持在开源文件格式。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--khCg9upF--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/g4meyvnmdek7kd3zypcv.png)

Apache Hudi 将核心仓库和数据库功能直接引入数据湖,这非常适合流式处理 wokload,使用户能够创建高效的增量批处理管道。此外,Hudi 的兼容性非常好,例如可以在任何云上使用,并且支持 Apache Spark、Flink、Presto、Trino、Hive 等众多查询引擎。

2.Iceberg

Iceberg 是一种用于海量分析数据集的开放表格式,具有 Schema 演化、隐藏分区、分区布局演化、时间旅行、版本回滚等。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--GXeahl5B--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/u09lml6sez9s87q3uq9x.png)

Iceberg 是为巨大的表而构建的,即使是那些无法使用分布式 SQL 引擎读取的表,也用于单个表可以包含数十 PB 数据的生产环境。 Iceberg 以其快速扫描计划、高级过滤、适用于任何云存储、可序列化隔离、多个并发写入者等而闻名。

p.s. 为

LakeSoul 是基于 Apache Spark 引擎构建的统一流和批处理表存储解决方案,支持可扩展的元数据管理、ACID 事务、高效灵活的 upsert 操作、模式演化以及流和批处理统一。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--OgwhX1gv--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/5njt3y069xdvgwm8ue7m.png)

LakeSoul 专注于行和列级别的增量更新插入、高并发写入和批量扫描云存储上的数据。云原生计算与存储分离架构使得部署非常简单,同时以更低的成本支持海量数据。

4.三角洲湖

Delta Lake 是一个开源存储框架,可以使用包括 Spark、PrestoDB、Flink、Trino 和 Hive 在内的计算引擎和适用于 Scala、Java、Rust、Ruby 和 Python 的 API 构建 Lakehouse 架构,提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(例如 S3、ADLS、GCS 和 HDFS)之上统一流式处理和批处理数据处理。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--FUmBhKSu--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/x8mh8iy9k9zwzxba7plx.png)

这是关于数据湖的项目的_comparison_。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--ycdHipuP--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/bnxj0dk65y985746yeqi.png)

_Hudi_更关注流数据的快速落地和延迟数据的修正。 _Iceberg_专注于提供统一的操作API,通过屏蔽底层数据存储格式的差异,形成标准、开放、通用的数据组织格,让不同的引擎可以通过API访问。 Lakesoul,现在基于spark,更专注于构建数据湖库的标准化管道。 Databricks 的开源项目 Delta Lake 倾向于解决 Spark 级别的 Parquet 和 ORC 等存储格式。

作为数据湖仓库的新人,以后会进一步了解数据湖仓库,在这里记录一下自己的学习过程。接下来_我将重点关注Hudi、Iceberg、Lakesoul、DeltaLake这四个开源产品,并编写一些代码和教程,_进行我的学习。希望我的记录能对你有所帮助或得到你的建议。

向你推荐>>>开发者社区

华为、百度、京东云现已入驻，来创建你的专属开发者社区吧！

更多推荐

关于 Jupyter 笔记本最糟糕的五件事

我曾经喜欢 Jupyter。我仍然认为它们是许多任务的绝佳工具,例如探索性数据分析和轻松轻松地向同事展示见解。然而,虽然它们有时非常适合数据科学,但有时却令人头疼。像任何软件工具一样,它们也有其缺点。以下是 Jupyter Notebooks 用于数据科学的五个最糟糕的事情: 1.练习良好的代码版本控制几乎是不可能的 Jupyter Notebooks 对于代码版本控制来说很糟糕。问题是它们存储为

大数据

2023 年流行的大数据和数据科学角色

数据科学和大数据提供了广泛的职业前景。涉及数据的角色的扩展伴随着数据科学的出现。它是当今最流行和最前沿的技术应用领域之一,这是有道理的。数据科学目前可能是最好的就业市场。与此同时,这一发展中的主题正在改变众多业务和技术。随着所有垂直领域的行业越来越受数据驱动,就业市场和必要的技能受到影响。随着我们学习新的数据接触点和评估方法,我们生活的社会、日常生活和国家经济越来越依赖数据。这是大数据和数据科学能

大数据

数据科学的主要组成部分和特点

数据科学是十年来增长最快、最具挑战性和高薪的工作之一。那么,究竟什么是数据科学?数据科学是一个跨学科领域,它结合了统计学、计算机科学和机器学习算法,以从结构化和非结构化数据中获得洞察力。据《经济时报》报道,尽管供应增长缓慢,但印度对通过数据科学课程认证的各行业数据科学专业人员的需求增长了 400% 以上。数据科学的组成部分 1\。数据探索这是最关键的一步,因为它花费的时间最多。数据探索消耗了大