四月天03 个人主页

@qq_22473611

四月天03

2022-09-29 18:13:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Kafka 集群扩容、分区重新分配、SparkStreaming自适应上游kafka topic partition数目变化

我们往已经部署好的Kafka集群里面添加机器是最正常不过的需求，而且添加起来非常地方便，我们需要做的事是从已经部署好的Kafka节点中复制相应的配置文件，然后把里面的broker id修改成全局唯一的，最后启动这个节点即可将它加入到现有Kafka集群中。　　但是问题来了，新添加的Kafka节点并不会自动地分配数据，所以无法分担集群的负载，除非我们新建一个topic。但是现在我们想手动将部分分区..

#kafka #spark #big data

AOP切面编程& 埋点将用户行为存储到数据库或者发送到kafka进行spark处理

一、基于注解的Spring AOP的配置和使用<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xmlns:conte...

Kafka+SparkStream+Hive

目前的项目中需要将kafka队列的数据实时存到hive表中。1、场景介绍：数据发往kafka，用spark读取kafka的数据，写入到hive表里面（ORC压缩算法，一个分区字段）2、hive的介绍：hive表是分区表分区的字段是一个，想要使用动态分区，hive的压缩算法是ORC FILE使用spark的组件spark streaming 可以流式的读取kafka的数据，并且直接写入到...

Flink实时数仓_DWD层数据准备

第1章需求分析及实现思路1.1 分层需求分析在之前介绍实时数仓概念时讨论过，建设实时数仓的目的，主要是增加数据计算的复用性。每次新增加统计需求时，不至于从原始数据进行计算，而是从半成品继续加工而成。我们这里从 kafka 的 ods 层读取用户行为日志以及业务数据，并进行简单处理，写回到 kafka 作为 dwd 层。1.2 每层的职能分层数据描述生成计算工具存储媒介ODS原始数据，日志和业务数

#flink #kafka #big data

kafka面试题及问题汇总

https://www.cnblogs.com/sunrise88/p/7286009.html1、kafka的数据存在内存还是磁盘Kafka最核心的思想是使用磁盘，而不是使用内存，可能所有人都会认为，内存的速度一定比磁盘快，我也不例外。在看了Kafka的设计思想，查阅了相应资料再加上自己的测试后，发现磁盘的顺序读写速度和内存持平。而且Linux对于磁盘的读写优化也比较多，包括read...

新闻大数据实时分析可视化系统，Flume+HBase+Kafka

原文：https://blog.csdn.net/u011254180/article/details/80172452https://blog.csdn.net/xw15061126063/article/details/86760299本次项目是基于企业大数据经典案例项目（大数据日志分析），全方位、全流程讲解大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开...

kafka架构与原理，消息的可靠性与一致性幂等性，数据存储、zookeeper、使用场景

Kafka常用命令之kafka-topics.shhttps://blog.csdn.net/qq_29116427/article/details/80202392Kafka概述Kafka作为一个商业级消息中间件，发布和订阅记录流，它类似于一个消息队列先了解下Kafka的基本原理，然后通过对kakfa的存储机制、复制原理、同步原理、可靠性和持久性保证等等一步步对其可靠性进行分析...

#kafka #zookeeper #big data

SparkStreaming +kafka 的offset保存MySQL、hbase、redis、zookeeper

Kafka做为一款流行的分布式发布订阅消息系统，以高吞吐、低延时、高可靠的特点著称，已经成为Spark Streaming常用的流数据来源。其实说白了，官方提供的思路就是，把JavaInputDStream转换为OffsetRange对象，该对象具有topic对应的分区的所有信息，每次batch处理完，Spark Streaming都会自动更新该对象，所以你只需要找个合适的地方保存该对象（比如..

#kafka #spark #mysql

实时数仓：基于Flink Sql connector：kafka构建实时数仓

时数仓主要是为了解决传统数仓数据时效性低的问题，实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数仓会存在差异，但是关于数仓建设的基本方法论是一致的。本文会分享基于Flink SQL从0到1搭建一个实时数仓的demo，涉及数据采集、存储、计算、可视化整个处理流程。通过本文你可以了解到：实时数仓的基本架构实时数仓的数据处理流程

#sql #big data #数据库

kafka生产者方式、回调函数、指定分区、消费方式指定分区、偏移量提交、多线程，消费失败重试补偿

一、 kafka发送消息的三种方式public class MyProducer implements Job {private static KafkaProducer<String,String> producer;static {Properties properties = new Properties();...

#kafka #java #big data

共 20 条

请选择