logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

kafka事务剖析

【kafka事务简介】在kafka的0.11版本中,引入了kafka事务的特性,确保在一个事务中发送的多条消息,要么都成功,要么都失败。这里说的多条消息可以是发送给不同topic的多个消息。kafka事务机制的使用,更多的是在流式计算中,从消息源获取消息,然后通过一系列计算最后发送到kafka的场景中,保证每条消息恰好被计算一次,从而实现输入输出端到端的Exactly Once的语义。【事务的使用

#kafka#数据库#分布式
kafka的消息持久化文件

最近排查kafka的问题,涉及到了kafka的消息存储,本文就相关内容进行总结。我们都知道,topic是有分区(partition)的概念的, 生产者往同一个topic发送的消息最终是发送到了不同的分区里面。也就是说,一个topic里的消息是由该topic下所有分区里的消息组成的。在同一个分区里,消息是有序的,而不同分区中,消息是不能保证有序的。有了这个简单认识后,自然可以知道,每个分区仅会存储该

#kafka#分布式
kafka之ranger插件的一个坑

之前文章写过kafka的鉴权,以及集成ranger插件的配置使用。但真正在用起来后,发现里面有个坑,本文就来聊聊这个坑的情况以及排查过程。【问题现象】kafka在集成了ranger插件实现鉴权功能后,发现过一段时间后,controller无法正确连接上broker,并有如下报错:// server.log中的日志[2022-12-0615:32:48,068] ERROR [Controlle..

#kafka#java#分布式 +1
iceberg的java api使用

【前言】了解一个组件的最好方式是先使用该组件,今天我们就来聊聊如何通过java api对iceberg进行操作。为什么是选择api进行介绍,而不是更通用的flink、spark、hive等。一方面是觉得flink、spark使用iceberg的介绍网上已经有很多,官网的介绍也比较清晰,而java api的介绍则相对少些;另一方面,不管是flink,spark最终都还是调用这些基本的api完成相关的

#java#开发语言
一文搞懂hadoop的metrics

【概述】一个成熟的项目通常都会自带提供metric,反映运行时内部的各个信息,以方便进行监控运维。hadoop也不例外,通过jmx可以查看内部各个metrics信息,本文就来聊聊hdfs的...

#java#大数据#python +1
RabbitMQ——最大连接数

默认情况下,rabbitmq文件句柄数设置是1024。连接数最多为829,连接数的具体计算方式为:连接数=(文件句柄数-100)*0.9,计算后的值取整再减2。例如:(1024-100)*0.9=831.6,取整831再减2得到829。真正使用时,1024可能无法满足实际需求。这个时候,一般通过ulimit来调整程序的最大文件句柄数。下图为通过ulimit将文件句柄数调整到1024...

#rabbitmq
kafka的controlled shutdown请求

这是我的第101篇原创文章【背景】kafka基于k8s容器化部署后,对容器设置了存活探针,即检测监听端口是否存在。然而一次kill kafka进程的操作,服务的重启时间(supervisor会自动再拉起kafka进程)超过了存活探针的监测时间,导致pod重启。本文就该问题展开进行分析。【kill背后的逻辑】对于以SIGTERM信号(不带参数的默认发送信号)进行的kill操作,kafka broke

#kafka#分布式
kafka的消费者组(上)

最近在排查一个sparkstreaming在操作kafka时,rebalance触发了一个异常引起任务失败,而组内小伙伴对消费者组的一些基本知识不是很了解,所以抽了些时间进行相关原理的整理。本文就来聊聊相关内容。【消费者组的基本原理】在kafka中,多个消费者可以组成一个消费者组(consumer group),但是一个消费者只能属于一个消费者组。消费者组保证其订阅的topic的每个分区只能分配给

#kafka#java#分布式 +2
Kafka——listeners

kafka中提供了listeners和advertised.listeners两个配置项,两个配置项的具体含义和作用是什么,有些什么区别,以及应该如何进行配置呢?【概念理解】要搞清楚这些...

#kafka#java#大数据 +2
    共 12 条
  • 1
  • 2
  • 请选择