zfqzfx 个人主页

@zfqzpp

zfqzfx

2023-09-19 18:33:34 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Apache Spark 第 13 章附加篇 · Apache Spark Real-Time Mode 实时计算

实时计算解决了批处理在时效性上的不足，适用于电商秒杀、风控等数据价值快速衰减的场景。Spark采用微批（Micro-Batch）架构，通过将流数据切分为小批次处理，在工程简洁性和延迟之间取得平衡（百毫秒级）。相比纯流引擎（如Flink），Spark牺牲毫秒级延迟，但获得了批流统一的API、容错性和成熟生态。结构化流（Structured Streaming）是Spark主流实时计算方案，适用于秒级

#apache #spark #大数据

Flink状态后端类型与区别

Flink的状态后端决定了Checkpoint存储方式和状态在TaskManager内存与外部存储间的分布。Flink 1.13+主要支持两种状态后端：HashMapStateBackend（内存存储，适合小状态、低延迟场景）和EmbeddedRocksDBStateBackend（磁盘存储，支持大状态和增量Checkpoint）。前者基于JVM堆内存，读写快但受内存限制；后者通过RocksDB实

#flink #大数据

Apache Flink Checkpoint 与 Chandy-Lamport 算法深度解析

本文系统梳理了Flink Checkpoint机制的核心原理与实现。Checkpoint作为Flink容错的核心组件，通过周期性全局快照实现Exactly-Once语义。文章详细解析了Checkpoint Coordinator、Barrier传播机制、状态后端等核心概念，并对比了三种Checkpoint模式（对齐/非对齐/Changelog）的适用场景。同时阐述了Checkpoint与Savep

#apache #flink #算法

如何解决 Flink 的状态膨胀问题

Flink状态膨胀问题优化方案状态膨胀问题主要由无限制状态积累、大键值存储、不合理数据结构及数据倾斜等引起。核心优化措施包括： TTL设置：通过DataStream API或SQL（全局配置/Hint/编译计划）为状态设置生存时间状态后端选择：大状态场景优先使用RocksDB，并调优内存管理、压缩策略及增量Checkpoint 业务逻辑优化：避免无限ListState，改用MapState分区

#flink #大数据

Docker 深入学习指南

本文深入探讨了Docker核心技术与最佳实践。主要内容包括：Dockerfile编写技巧（多阶段构建、缓存优化）、镜像分层原理与体积优化、容器运行机制、网络配置、数据存储管理、Docker Compose进阶用法、安全实践以及CI/CD部署流程。重点解析了多阶段构建如何显著减小镜像体积（85%以上），联合文件系统(UnionFS)的工作机制，以及通过.dockerignore和层缓存优化构建效率。

#docker #容器

Kubernetes 进阶学习指南

本文介绍了 Kubernetes（K8s）的核心运维工具与最佳实践，涵盖以下关键内容： Helm：K8s包管理器，通过Chart打包应用资源，支持一键部署、升级和回滚。 RBAC：基于角色的权限控制，定义用户/服务账号对资源的操作权限。 GitOps/ArgoCD：实现持续交付，通过Git仓库管理配置变更。可观测性：监控、日志和链路追踪确保系统透明性。 NetworkPolicy：网络隔离策略，

#kubernetes #容器 #云原生

Apache Flink 学习笔记 · Phase 1

本文介绍了大数据处理基础内容（1-4周），重点对比批处理与流处理的差异，并分析大数据架构的演进过程。传统数据库在超大规模数据处理时性能下降，大数据技术通过水平扩展、容错和高吞吐解决这一问题。批处理适用于有界数据（如离线报表），流处理则处理无界数据（如实时监控）。大数据架构从Lambda（批流双系统）、Kappa（统一流处理）演进到现代流批一体（如Flink），实现了单一框架处理各类数据的能力。

#apache #flink #大数据

Apache Spark Real-Time Mode 深度解析：打破微批次壁垒，挑战 Flink 的实时王座

Spark RTM：流处理新突破本文分析了Spark 4.1推出的Real-Time Mode(RTM)如何突破传统流处理困境。RTM通过三大创新实现了高吞吐与低延迟的统一：1）长周期Epoch+连续数据流，将检查点开销摊薄；2）Stage并发执行，消除上下游等待；3）非阻塞算子实现数据持续流动。相比传统微批次的秒级延迟，RTM可达毫秒级，同时保留Spark的容错优势。与Flink相比，RTM在

#apache #spark #flink

Flink 运行时架构 & 完整任务提交流程

本文详细解析了Apache Flink分布式流处理引擎的运行时架构和任务提交流程。Flink采用分层架构，包括客户端层（负责作业提交）、主节点JobManager（负责作业调度和管理）、资源管理器（负责资源分配）、任务执行节点TaskManager（负责实际计算）以及外部服务（提供高可用和状态存储支持）。任务提交流程包含8个关键步骤：从用户提交作业开始，经过StreamGraph生成、JobGra

#flink #大数据

Apache Flink 中的 RocksDB 大状态存储深度解析

RocksDB状态后端是Apache Flink中基于LSM-Tree结构的嵌入式KV存储引擎，用于管理算子状态并持久化到本地磁盘。它支持增量快照同步到远程存储，突破JVM堆内存限制，可处理TB级状态数据。核心组件包括MemTable内存缓冲区、SST磁盘文件、列族隔离机制和增量Checkpoint功能。相比HashMapStateBackend，RocksDB具有更大状态容量但读写性能略低，是F

#flink #大数据

共 26 条

请选择