logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Kafka 集群扩容、分区重新分配、SparkStreaming自适应上游kafka topic partition数目变化

我们往已经部署好的Kafka集群里面添加机器是最正常不过的需求,而且添加起来非常地方便,我们需要做的事是从已经部署好的Kafka节点中复制相应的配置文件,然后把里面的broker id修改成全局唯一的,最后启动这个节点即可将它加入到现有Kafka集群中。  但是问题来了,新添加的Kafka节点并不会自动地分配数据,所以无法分担集群的负载,除非我们新建一个topic。但是现在我们想手动将部分分区..

#kafka#spark#big data
AOP切面编程& 埋点 将用户行为存储到数据库或者发送到kafka进行spark处理

一、基于注解的Spring AOP的配置和使用<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xmlns:conte...

Kafka+SparkStream+Hive

目前的项目中需要将kafka队列的数据实时存到hive表中。1、场景介绍:数据发往kafka,用spark读取kafka的数据,写入到hive表里面(ORC压缩算法,一个分区字段)2、hive的介绍:hive表是分区表分区的字段是一个,想要使用动态分区,hive的压缩算法是ORC FILE使用spark的组件spark streaming 可以流式的读取kafka的数据,并且直接写入到...

Flink实时数仓_DWD层数据准备

第1章 需求分析及实现思路1.1 分层需求分析在之前介绍实时数仓概念时讨论过,建设实时数仓的目的,主要是增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。我们这里从 kafka 的 ods 层读取用户行为日志以及业务数据,并进行简单处理,写回到 kafka 作为 dwd 层。1.2 每层的职能分层数据描述生成计算工具存储媒介ODS原始数据,日志和业务数

#flink#kafka#big data
kafka面试题及问题汇总

https://www.cnblogs.com/sunrise88/p/7286009.html1、kafka的数据存在内存还是磁盘Kafka最核心的思想是使用磁盘,而不是使用内存,可能所有人都会认为,内存的速度一定比磁盘快,我也不例外。在看了Kafka的设计思想,查阅了相应资料再加上自己的测试后,发现磁盘的顺序读写速度和内存持平。而且Linux对于磁盘的读写优化也比较多,包括read...

新闻大数据实时分析可视化系统,Flume+HBase+Kafka

原文:https://blog.csdn.net/u011254180/article/details/80172452https://blog.csdn.net/xw15061126063/article/details/86760299本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开...

kafka架构与原理 ,消息的可靠性与一致性幂等性,数据存储、zookeeper、使用场景

Kafka常用命令之kafka-topics.shhttps://blog.csdn.net/qq_29116427/article/details/80202392Kafka概述Kafka作为一个商业级消息中间件 ,发布和订阅记录流,它类似于一个消息队列先了解下Kafka的基本原理,然后通过对kakfa的存储机制、复制原理、同步原理、可靠性和持久性保证等等一步步对其可靠性进行分析...

#kafka#zookeeper#big data
SparkStreaming +kafka 的offset保存MySQL、hbase、redis、zookeeper

Kafka做为一款流行的分布式发布订阅消息系统,以高吞吐、低延时、高可靠的特点著称,已经成为Spark Streaming常用的流数据来源。其实说白了,官方提供的思路就是,把JavaInputDStream转换为OffsetRange对象,该对象具有topic对应的分区的所有信息,每次batch处理完,Spark Streaming都会自动更新该对象,所以你只需要找个合适的地方保存该对象(比如..

#kafka#spark#mysql
实时数仓:基于Flink Sql connector:kafka构建实时数仓

时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数仓会存在差异,但是关于数仓建设的基本方法论是一致的。本文会分享基于Flink SQL从0到1搭建一个实时数仓的demo,涉及数据采集、存储、计算、可视化整个处理流程。通过本文你可以了解到:实时数仓的基本架构实时数仓的数据处理流程

#sql#big data#数据库
kafka生产者方式、回调函数、指定分区、消费方式指定分区、偏移量提交、多线程,消费失败重试补偿

一、 kafka发送消息的三种方式public class MyProducer implements Job {private static KafkaProducer<String,String> producer;static {Properties properties = new Properties();...

#kafka#java#big data
    共 20 条
  • 1
  • 2
  • 请选择