守望南柯一梦个人主页

@weixin_43153588

守望南柯一梦

2022-10-22 16:47:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【DBeaver23.3.0 mac版本升级后，报错：Error downloading driver libraries】

DBeaver提示版本升级，本着体验新版本功能的项目，点击了checkfor updates.

#macos

【FLink消费Kafka之FlinkConsumer到KafkaSource的转变】

上篇介绍了flink的入门程序wordcount，在项目开发过程中，最常接触的还是跟各种源头系统打交道，其中消费接收kafka中的数据是最常见的情况，而flink在1.15版本后连接kafka的依赖包发生了变化，之前的flink版本使用的依赖包是flink-connector-kafka_2.1x（后面的数字代表kafka环境的scala版本），从flink1.15版本开始引用的依赖包变为flin

#flink #kafka #大数据

Spark3.3集群安装部署

spark从1.0版本发布至今，已经更新到3.5版本，目前生态发展非常成熟，无论是kafka、hive、还是数据湖格式（hudi、iceberg、delta）都对spark有做兼容适配，提供的API也是非常之多，由于实时场景的增加，spark计算引擎已经逐步替代mapreduce引擎，成为离线批处理的首选，而且spark提供了非常多的算数转子用于处理复杂计算，并且这些转化操作都是惰性求值，不用像m

#大数据 #spark

调度工具之dolphinscheduler篇

随着开发程序的增多，任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题，随时少量的任务可以用linux系统自带的crontab加以定时进行，但缺点也很明细，不够直观，以及修改起来比较麻烦，容易出错，这时候就需要调度工具来帮忙，不知道大家都接触过哪些调度工具，我这边接触过airflow、oozie、 Kyligence，但今天我想推荐的调度工具是dolphinscheduler，下面就从安装

#大数据 #运维开发

【Flink SQL API体验数据湖格式之paimon】

随着大数据技术的普及，数据仓库的部署方式也在发生着改变，之前在部署数据仓库项目时，首先想到的是选择国外哪家公司的产品，比如：数据存储会从Oracle、SqlServer中或者Mysql中选择，ETL工具会从Informatica、DataStage或者Kettle中选择，BI报表工具会从IBM cognos、Sap Bo或者帆软中选择，基本上使用的产品组合都类似，但随着数据量的激增，之前的部署方式

#flink #sql #大数据

到底了