logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

开源大数据流水线系统PiflowX本地开发调试

编译完成后,找到streampark-console-service模块target目录下压缩包apache-streampark-2.2.0-SNAPSHOT-incubating-bin.tar.gz,解压到指定目录。在资源管理中,上传piflowx/piflow-server/target下piflow-server.jar。Program main填写。启动完成,会在项目下生成一个serv

文章图片
#开源#大数据
开源大数据流水线系统PiflowX本地开发调试

编译完成后,找到streampark-console-service模块target目录下压缩包apache-streampark-2.2.0-SNAPSHOT-incubating-bin.tar.gz,解压到指定目录。在资源管理中,上传piflowx/piflow-server/target下piflow-server.jar。Program main填写。启动完成,会在项目下生成一个serv

文章图片
#开源#大数据
PiflowX大数据流水线系统

Piflow原生基于spark引擎,提供了100+的标准化组件,考虑到当前flink在流计算领域的广泛应用,所以开始基于Piflow扩展,使其同时支持spark和flink引擎。目前PiflowX已完成底层接口改造,顶层算子节点实现spark和flink共用一套接口,引擎实现侧则各自基于不同的引擎API实现。任务编辑,组件节点会通过任务类型加载不同引擎实现的算子节点,目前flink引擎实现了大概3

文章图片
#大数据
StreamPark + PiflowX 打造新一代大数据计算处理平台

PiFlow是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性:简单易用:可视化配置流水线,实时监控流水线运行状态,查看日志;

文章图片
#大数据#spark#hadoop +1
elasticsearch安装的各种坑

elasticsearch简介ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。环境:1. centos6...

PiflowX组件-WriteToUpsertKafka

以upsert方式往Kafka topic中写数据。

文章图片
#大数据#spark#flink +3
PiflowX组件-ReadFromUpsertKafka

upsert方式从Kafka topic中读取数据。

文章图片
#大数据#spark#big data +2
到底了