logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【DBeaver23.3.0 mac版本升级后,报错:Error downloading driver libraries】

DBeaver提示版本升级,本着体验新版本功能的项目,点击了checkfor updates.

文章图片
#macos
【FLink消费Kafka之FlinkConsumer到KafkaSource的转变】

上篇介绍了flink的入门程序wordcount,在项目开发过程中,最常接触的还是跟各种源头系统打交道,其中消费接收kafka中的数据是最常见的情况,而flink在1.15版本后连接kafka的依赖包发生了变化,之前的flink版本使用的依赖包是flink-connector-kafka_2.1x(后面的数字代表kafka环境的scala版本),从flink1.15版本开始引用的依赖包变为flin

文章图片
#flink#kafka#大数据
Spark3.3集群安装部署

spark从1.0版本发布至今,已经更新到3.5版本,目前生态发展非常成熟,无论是kafka、hive、还是数据湖格式(hudi、iceberg、delta)都对spark有做兼容适配,提供的API也是非常之多,由于实时场景的增加,spark计算引擎已经逐步替代mapreduce引擎,成为离线批处理的首选,而且spark提供了非常多的算数转子用于处理复杂计算,并且这些转化操作都是惰性求值,不用像m

文章图片
#大数据#spark
调度工具之dolphinscheduler篇

随着开发程序的增多,任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题,随时少量的任务可以用linux系统自带的crontab加以定时进行,但缺点也很明细,不够直观,以及修改起来比较麻烦,容易出错,这时候就需要调度工具来帮忙,不知道大家都接触过哪些调度工具,我这边接触过airflow、oozie、 Kyligence,但今天我想推荐的调度工具是dolphinscheduler,下面就从安装

文章图片
#大数据#运维开发
【Flink SQL API体验数据湖格式之paimon】

随着大数据技术的普及,数据仓库的部署方式也在发生着改变,之前在部署数据仓库项目时,首先想到的是选择国外哪家公司的产品,比如:数据存储会从Oracle、SqlServer中或者Mysql中选择,ETL工具会从Informatica、DataStage或者Kettle中选择,BI报表工具会从IBM cognos、Sap Bo或者帆软中选择,基本上使用的产品组合都类似,但随着数据量的激增,之前的部署方式

文章图片
#flink#sql#大数据
到底了