logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Flink入门(三)——环境与部署

flink是一款开源的大数据流式处理框架,他可以同时批处理和流处理,具有容错性、高吞吐、低延迟等优势,本文简述flink在windows和linux中安装步骤,和示例程序的运行,包括本地调试环境,集群环境。另外介绍Flink的开发工程的构建。首先要想运行Flink,我们需要下载并解压Flink的二进制包,下载地址如下:https://flink.apache.org/downloads.ht...

开源数据质量解决方案——Apache Griffin入门宝典

提到格里芬—Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥。先说一句:Griffin是大数据质量监控领域唯一的Apache项目,懂了吧。在不重视数据质量的大数据发展时期,Griffin并不能引起重视,但是随着数据治理在很多企业的全面开展与落地,数据质量的问题开始引起重视。还是那句话,商用版的解决方

#大数据#hadoop#java +2
【开源项目】轻量元数据管理解决方案——Marquez

大家好,我是独孤风。又到了本周的开源项目推荐。最近推荐的元数据管理项目很多,但是很多元数据管理平台的功能复杂难用。 那么有没有轻量一点的元数据管理项目呢? 今天为大家推荐的开源项目,就是一个轻量级的元数据管理工具。虽然轻量,但是元数据的收集、展示、数据血缘等功能都是支持的。 让我们一起来看看吧~Marquez概述今天为大家推荐的开源项目名为Marquez。这是WeWork开源的元数据管理工具,可以

非结构化数据怎么存?——开源对象存储方案介绍

过去的相当长的一段时间里,商用对象存储占据了市场上的大量的份额。国外的Amazon S3,国内的阿里云OSS都成为了大多数公司的选择。但是构建一个企业级的数据湖(包括结构化和非结构化数据)...

#大数据#java#hadoop +2
【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台

大家好,我是独孤风。这几年数据治理爆火,但迟迟没有一个优秀的开源数据治理平台的出现。很多公司选择元数据管理平台作为基础,再构建数据质量,数据血缘等工具。今天为大家推荐的开源项目,是一个一体化的数据治理平台,一个平台解决了大部分问题。让我们一起来看看吧~OpenMetadata是一个用于数据治理的一体化平台,可以帮助我们发现,协作,并正确的获取数据。OpenMetadata提供了数据发现、数据血缘、

#开源
【开源项目推荐】8.9K纯中文本地GPT知识库搭建项目

大家好,我是独孤风。又到了本周的开源项目推荐。近一年多的时间,人工智能迎来了大爆发。GPT相关的大模型的发展让很多领域都发生了巨大的变化。 但是虽然GPT的自然语言识别功能异常的强大,但回答给我们的知识内容并不尽如人意。那么,有没有可以在本地部署搭建的AI知识库项目呢? 今天为大家推荐的就是一个纯中文本地GPT知识库搭建项目,虽然刚刚开源不到半年的时间,标星已经达到了8.8K, 让我们一起来看看吧

#开源
Flink入门(五)——DataSet Api编程指南

Apache FlinkApache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天,Flink正在飞速发展。由于性能的优势和兼顾批处理,流处理的特性,Flink可能正在颠覆整个大数据的生态。DataSet API首先要想运行Flink,我们需要下载并解压Flink的二进制包,下载地址如下:https://flink.apache.org/do...

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

大家好,我是独孤风,从本周开始,争取每周为大家带来一个优秀的开源项目推荐。开源项目不仅促进了技术的发展和普及,还为全球范围内的开发者和用户社区建立了一个共享知识、协作和创新的平台。站在巨人的肩膀上才能看的更远,我们平时也应该多多关注开源项目,不仅学习其丰富的知识,也要找机会为开源事业做出自己的贡献。话不多说,今天为大家推荐的开源项目名为SQLLineage。SQLLineage 是一个使用 Pyt

#开源#sql#数据库
【开源项目推荐】Apache Superset——最优秀的开源数据可视化与数据探索平台

大家好,我是独孤风。数据可视化是数据领域一个非常重要的应用。而结合了数据可视化和数据探索功能的BI(商业智能)工具,更是被各大公司青睐。但是,由于数据可视化工具的开发成本过高,长期以来一直是商业化的BI工具处于垄断地位。 那么,有没有优秀的开源数据可视化与数据探索平台呢? 今天为大家推荐的开源项目,就是极为优秀的数据可视化项目,Github标星高达55K。让我们一起来看看吧~今天为大家推荐的开源项

#开源#信息可视化
用户画像系统架构——从零开始搭建实时用户画像(二)

在《什么是用户画像》一文中,我们已经知道用户画像对于企业的巨大意义,当然也有着非常大实时难度。那么在用户画像的系统架构中都有哪些难度和重点要考虑的问题呢?挑战大数据随着互联网的崛起和智能...

暂无文章信息