淡定一生2333 个人主页

@zc19921215

淡定一生2333

2022-09-29 18:07:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Flink的状态后端(State Backends)

一、前言Flink提供不同的状态后端（State Backend）来区分状态的存储方式和存储位置。Flink状态可以存储在java堆内存内或者内存之外。通过状态后端的设置，Flink允许应用持有大容量的状态。开发者可以在不改变应用逻辑的情况下设置状态后端。二、可用的State BackendFlink提供三种开箱即用的State Backend：MemoryStateBackendFsStateB

HBase的Get是如何执行的

之前的那篇HFile结构解析的文章分析了下HFile的结构，这篇文章来分析下HBase Get数据的流程,看下它是如何获取数据的。一般来说，HBase读取数据的流程是这样的：先从Zookeeper中找到meta表所在的Regionserver的信息，根据namespace、表名、以及rowKey查找数据所在的RegionServer的信息。向对应的regionServer建立连接并发起...

Hive解析json字段，虽然json_tuple写法很优雅，但是效率并不一定高哦

在写Hive SQL时，需要从一个json列中解析出多个key的信息，查阅资料了解到有两种写法，一种是get_json_object，另外一种是json_tuple。两种用法的示例如下所示get_json_object示例：selectget_json_object(json_str_column,'$.a1') as a1,get_json_object(json_str_column,'$.a

Kafka部分Partition中无数据导致Window不触发问题

业务上需要将同一个时间段的两种数据收集到一起做一些计算，这两种数据分别存在于Kafka的两个Topic中。计算逻辑是这样的：使用两个DataStream分别消费两个Topic中的数据，对两条流先分别设置WaterMark，然后union，接着进行keyBy操作，最后使用Window将同一个时间窗口中的两种数据汇聚在一起进行计算。但是发现程序无论是在本地运行还是在yarn-cluster模式下运行，

RDD计算时是把数据全部加载至内存么

RDD的本质RDD的本质是一个函数,而RDD的变换不过是函数的嵌套.RDD有两类:输入的RDD: 典型如KafkaRDD,JdbcRDD转换的RDD: 如MapPartitionsRDDRDD的处理流程:以如下代码为例:sc.textFile("abc.log").map().saveAsTextFile("")1. textFile 会构建出一个NewHad...

Kafka的幂等性与事务性理解

最近在深入理解Flink的Exactly-Once，发现Flink Checkpoint只能保障Flink程序内部的一致性，无法保证Sink到外部系统的Exactly-Once语义。但是Sink到外部如果实现了TwoPhaseCommitSinkFunction这个抽象类就能实现端到端的Exactly-Once语义，而Kafka刚好也实现了这个这个类，所以先来研究下Kafka的Exactly-On

开发中遇到的一些Kafka问题以及它的Rebalance机制介绍

项目开发过程中遇到的一些问题：问题1：环境中配置的replica.fetch.max.bytes该值偏大，导致有节点下线后同步数据会出现网卡塞满的情况，建议该值在百兆网下配置10M，千兆网20M左右。问题2：kafka不消费数据。后来发现是超时时间设置的的太短，消费还未处理完就已经被kafka认为超时，导致消费失败，offset不提交，所以一直消费那一批数据。修改超时时间即可。 ...

GC(Allocation Failure)引发的一些JVM知识点梳理

日前查看某个程序的日志，发现一直在报GC相关的信息，不确定这样的信息是代表正确还是不正确，所以正好借此机会再复习下GC相关的内容：以其中一行为例来解读下日志信息：[GC (Allocation Failure) [ParNew: 367523K->1293K(410432K), 0.0023988 secs] 522739K->156516K(1322496K), 0.0025...

Kafka事务报错之 Producer attempted an operation with an old epoch

今天使用Spark往Kafka中写数据，写入数据的时候配置了transactional.id，即事务性写入。一次性写入的数据量有点大，每次至少是30W+条数据，每条数据有十几个字段。任务经常会报如下错误：...

#kafka

到底了