logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark 优化(性能优化、解决数据倾斜)

性能优化、数据倾斜名称说明–num-executorsexecutor数量–executor-memoryexecutor内存(影响不大)–executor-cores每个executor的CPU core数–driver-memoryDriver内存举个栗子:资源一共:400G内存、100 core参考分配:50个executore、每个executor8G、2 core设置合理的并行度,官方推

#spark#性能优化#大数据
在 docker 中快速启动 Apache Hive

在伪分布式模式下,在Docker容器内运行Apache Hive,可以提供以下功能:快速启动/调试/为Hive准备测试环境。

文章图片
#docker#apache#hive
Flink Java 之 读取 kafka 数据与数据写入 kafka

序列与反序列化 kafka 数据Flink Kafka Consumer 需要知道如何将 Kafka 中的二进制数据转换为 Java 或者 Scala 对象。KafkaDeserializationSchema 允许用户指定这样的 schema,每条 Kafka 中的消息会反序列化。以上代码采用最简单的SimpleStringSchema。为了方便使用,Flink 提供了以下几种 schemas:

#kafka#java#flink
Flink Java CDC 之自定义反序列化器

以上两种都是原本就提供的,显然第二种更便于下游进行数据处理,那么自定义的会更好,可读性更强。

文章图片
#java#flink#mysql
到底了