你应该尝试的 4 个关于大数据的最佳开源项目

随着大数据的发展,数据湖时代正在到来,相关技术人才稀缺。越来越多的数据工程师和数据湖项目正在进入公众视野。也有开源产品,但并不是每个开源产品都值得尝试。让我们看看一些关于数据湖的开放项目,它们比付费项目更好,甚至更好。 1。严重 Hudi 是一个开源项目,提供表、事务、有效的 upserts/deletes、高级索引、流式摄取服务、数据集群/压缩优化和并发,同时将您的数据保持在开源文件格式。 []

开源小助理

499人浏览 · 2022-08-14 22:58:09

开源小助理 · 2022-08-14 22:58:09 发布

随着大数据的发展,数据湖时代正在到来,相关技术人才稀缺。越来越多的数据工程师和数据湖项目正在进入公众视野。也有开源产品,但并不是每个开源产品都值得尝试。让我们看看一些关于数据湖的开放项目,它们比付费项目更好,甚至更好。

1。严重

Hudi 是一个开源项目,提供表、事务、有效的 upserts/deletes、高级索引、流式摄取服务、数据集群/压缩优化和并发,同时将您的数据保持在开源文件格式。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--zwVDuIZj--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/r9kev6zhowodva2wvufs.png)

Apache Hudi 将核心仓库和数据库功能直接引入数据湖,这非常适合流式处理 wokload,使用户能够创建高效的增量批处理管道。此外,Hudi 的兼容性非常好,例如可以在任何云上使用,并且支持 Apache Spark、Flink、Presto、Trino、Hive 等众多查询引擎。

2.Iceberg

Iceberg 是一种用于海量分析数据集的开放表格式,具有 Schema 演化、隐藏分区、分区布局演化、时间旅行、版本回滚等。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--y15H5Hmm--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/wtpvbsqprnmpnbf8q2xg.png)

Iceberg 是为大型表构建的,即使是那些无法使用分布式 SQL 引擎读取的表,也用于生产中,其中单个表可以包含数十 PB 的数据。 Iceberg 以其快速扫描计划、高级过滤、适用于任何云存储、可序列化隔离、多个并发写入者等而闻名。

p.s. 为

LakeSoul 是基于 Apache Spark 引擎构建的统一流和批处理表存储解决方案,支持可扩展的元数据管理、ACID 事务、高效灵活的 upsert 操作、模式演化以及流和批处理统一。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--hXY_WUyv--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/t2hf5i6n5k72ilgh91pi.png)

LakeSoul 专注于行和列级别的增量更新插入、高并发写入和批量扫描云存储上的数据。云原生计算与存储分离架构使得部署非常简单,同时以更低的成本支持海量数据。

4.delta湖

Delta Lake 是一个开源存储框架,可以使用包括 Spark、PrestoDB、Flink、Trino 和 Hive 在内的计算引擎和适用于 Scala、Java、Rust、Ruby 和 Python 的 API 构建 Lakehouse 架构,提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流式处理和批处理数据处理。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--zr1y_k0N--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/j5pmpg1s0nxgxzgfcb06.png)

这是关于数据湖的项目比较。

[ 图像描述 ](https://res.cloudinary.com/practicaldev/image/fetch/s--8aPLc41J--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to- uploads.s3.amazonaws.com/uploads/articles/t7pv027h7wy6z6hry6g0.png)

Hudi 更侧重于流式数据的快速落地和延迟数据的修正。 Iceberg专注于提供统一的操作API,通过屏蔽底层数据存储格式的差异,形成标准、开放、通用的数据组织格,让不同的引擎可以通过API进行访问。 Lakesoul,现在基于 Spark,更侧重于构建标准化的数据湖库管道。 Delta Lake 是 Databricks 的一个开源项目,倾向于解决 Spark 级别的 Parquet 和 ORC 等存储格式。

作为数据湖仓库的新人,以后会进一步了解数据湖仓库,在这里记录一下自己的学习过程。接下来,我将重点关注这四个开源产品,Hudi、Iceberg、Lakesoul、DeltaLake,并编写一些代码和教程,进行学习。希望我的记录能对你有所帮助或得到你的建议。

向您推荐>>ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

一个开源应用程序导致 XSS 到 RCE 漏洞缺陷

跨站点脚本 (XSS) 是 Web 应用程序中最常遇到的攻击之一。如果攻击者可以将 JavaScript 代码注入到应用程序输出中,这不仅会导致 cookie 盗窃、重定向或网络钓鱼,而且在某些情况下还会导致系统完全受损。在本文中,我将通过 Evolution CMS、FUDForum 和 GitBucket 的示例展示如何通过 XSS 实现远程代码执行。进化CMS v3.1.8 链接:git

开源

我在校园 DevRel 展上的主要收获乔恩·戈特弗里德 E1

嘿嘿👋,欢迎来到校园DevRel 秀的这个博客系列,重点是来自神奇嘉宾DevRels 的经验教训。在我们开始之前!让我们花点时间了解一下 DevRel 到底是什么。顾名思义,开发者关系(或 DevRel)专注于维护与负责开发组织技术或产品的人员的关系。根据公司及其目标,该领域的角色可以采取各种形式和任务。组织和开发人员之间的沟通通常是 DevRel 的责任,以确保更好的信息流和反馈循环。这是对

开源

克服心理障碍,为开源做贡献

为开源做贡献是一项艰巨的任务。我已经当了 3 年的软件工程师,并且已经构建了近十年的软件,但我从来没有能够为开源项目做出贡献。它总是显得如此大胆和令人困惑。我以前开过 PR,接受过几十个比我优秀的开发者的批评,从不流汗。但开源似乎总是我无法企及的。为什么重要? 🤔 我 90% 的代码都是闭源的。很多公司都希望看到我的代码和我从事的项目,但除了部署的应用程序和我 3 年前做的一些全栈项目之