logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Flink的状态后端(State Backends)

一、前言Flink提供不同的状态后端(State Backend)来区分状态的存储方式和存储位置。Flink状态可以存储在java堆内存内或者内存之外。通过状态后端的设置,Flink允许应用持有大容量的状态。开发者可以在不改变应用逻辑的情况下设置状态后端。二、可用的State BackendFlink提供三种开箱即用的State Backend:MemoryStateBackendFsStateB

HBase的Get是如何执行的

之前的那篇HFile结构解析的文章分析了下HFile的结构,这篇文章来分析下HBase Get数据的流程,看下它是如何获取数据的。一般来说,HBase读取数据的流程是这样的:先从Zookeeper中找到meta表所在的Regionserver的信息,根据namespace、表名、以及rowKey查找数据所在的RegionServer的信息。向对应的regionServer建立连接并发起...

Hive解析json字段,虽然json_tuple写法很优雅,但是效率并不一定高哦

在写Hive SQL时,需要从一个json列中解析出多个key的信息,查阅资料了解到有两种写法,一种是get_json_object,另外一种是json_tuple。两种用法的示例如下所示get_json_object示例:selectget_json_object(json_str_column,'$.a1') as a1,get_json_object(json_str_column,'$.a

Kafka部分Partition中无数据导致Window不触发问题

业务上需要将同一个时间段的两种数据收集到一起做一些计算,这两种数据分别存在于Kafka的两个Topic中。计算逻辑是这样的:使用两个DataStream分别消费两个Topic中的数据,对两条流先分别设置WaterMark,然后union,接着进行keyBy操作,最后使用Window将同一个时间窗口中的两种数据汇聚在一起进行计算。但是发现程序无论是在本地运行还是在yarn-cluster模式下运行,

RDD计算时是把数据全部加载至内存么

RDD的本质RDD的本质是一个函数,而RDD的变换不过是函数的嵌套.RDD有两类:输入的RDD: 典型如KafkaRDD,JdbcRDD转换的RDD: 如MapPartitionsRDDRDD的处理流程:以如下代码为例:sc.textFile("abc.log").map().saveAsTextFile("")1. textFile 会构建出一个NewHad...

Kafka的幂等性与事务性理解

最近在深入理解Flink的Exactly-Once,发现Flink Checkpoint只能保障Flink程序内部的一致性,无法保证Sink到外部系统的Exactly-Once语义。但是Sink到外部如果实现了TwoPhaseCommitSinkFunction这个抽象类就能实现端到端的Exactly-Once语义,而Kafka刚好也实现了这个这个类,所以先来研究下Kafka的Exactly-On

开发中遇到的一些Kafka问题以及它的Rebalance机制介绍

项目开发过程中遇到的一些问题:问题1:环境中配置的replica.fetch.max.bytes该值偏大,导致有节点下线后同步数据会出现网卡塞满的情况,建议该值在百兆网下配置10M,千兆网20M左右。 问题2:kafka不消费数据。后来发现是超时时间设置的的太短,消费还未处理完就已经被kafka认为超时,导致消费失败,offset不提交,所以一直消费那一批数据。修改超时时间即可。 ...

GC(Allocation Failure)引发的一些JVM知识点梳理

日前查看某个程序的日志,发现一直在报GC相关的信息,不确定这样的信息是代表正确还是不正确,所以正好借此机会再复习下GC相关的内容:以其中一行为例来解读下日志信息:[GC (Allocation Failure) [ParNew: 367523K->1293K(410432K), 0.0023988 secs] 522739K->156516K(1322496K), 0.0025...

Kafka事务报错之 Producer attempted an operation with an old epoch

今天使用Spark往Kafka中写数据,写入数据的时候配置了transactional.id,即事务性写入。一次性写入的数据量有点大,每次至少是30W+条数据,每条数据有十几个字段。任务经常会报如下错误:...

#kafka
到底了