logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据之电商数仓(4) | 采集日志Flume

目录集群规划项目经验之Flume组件日志采集Flume配置Flume的ETL和分类型拦截器集群规划项目经验之Flume组件1.Source(1)Taildir Source相比Exec Source、Spooling Directory Source的优势TailDir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。断点续传的意思

#大数据#flume
Flink 核心算子详解:map / flatMap / filter / process

本文通过对比分析Flink中map、filter、flatMap和process四个核心算子的特性,帮助开发者理解其设计思想和使用场景。map实现1对1转换,filter用于数据过滤,flatMap支持1对多输出,而process是最强大的底层算子,可处理时间、状态等复杂逻辑。文章通过可运行的代码示例展示了各算子的具体应用,并强调选择原则:优先使用简单算子以获得更好的优化效果,仅在必要时使用pro

文章图片
#flink#python#大数据
Flink 状态管理详细总结:State 分类、Keyed State 实战、Operator State、TTL、状态后端选型

Flink状态管理是实时计算的核心能力,本文系统梳理了Flink状态机制。主要内容包括:状态的概念与必要性(如UV统计需记录用户访问记录);托管状态与原始状态的区别(推荐使用Flink托管的Managed State);Keyed State的五大类型(Value/List/Map/Reducing/Aggregating)及其典型应用场景(如水位差值告警使用ValueState);状态TTL配置

文章图片
#flink#数据库#前端
行式存储 vs 列式存储:原理、差异与真实业务案例解析

本文通过原理和案例对比行式存储与列式存储的核心差异。行式存储适合OLTP场景(如订单查询),通过索引快速获取整行数据;列式存储适合OLAP场景(如销售统计),只需读取特定列且压缩率高,分析性能提升显著。10亿订单表的测试显示列式存储查询耗时仅2-3秒,而行式需60+秒。实际系统建议混合架构:MySQL处理事务,ClickHouse负责分析。选型口诀为"写多用行式,算多用列式",

文章图片
#mysql#clickhouse
为什么企业级项目一定要用 PostGIS?和普通存经纬度到底有什么区别?

PostGIS作为PostgreSQL的空间扩展,远非仅存储经纬度,而是提供了完整的空间计算能力。相比普通数据库将经纬度作为普通字段存储,PostGIS具备三大核心优势:1)真正的空间数据类型,能理解点线面等地理对象;2)高效的空间索引,支持千万级数据的快速查询;3)数百个成熟的空间函数,解决距离计算、区域判断等复杂需求。在企业级应用中,PostGIS能确保空间计算的准确性、高性能和可扩展性,避免

文章图片
#oracle#数据库#sql
【Flink 轨迹实战】看懂距离、速度过滤代码:为什么要用 Haversine?抖动点和异常点怎么判断?

本文介绍了轨迹数据处理中的关键过滤方法,主要包括:1)通过Haversine公式计算两点间距离;2)基于时间差计算移动速度;3)设置最小移动距离阈值过滤GPS抖动点;4)设置最大速度阈值过滤异常点。文章详细解析了时间差计算、球面距离算法、抖动点识别和异常速度判断的实现逻辑,并提供了典型场景的速度阈值建议。这些过滤方法能有效消除GPS漂移和设备异常导致的轨迹失真,确保数据符合物理常识,为下游分析提供

文章图片
#flink#python#大数据
一文讲透 Java 中transient的用处(结合 Flink 理解)

本文深入解析了Java中transient关键字的作用及其在Flink开发中的关键应用。transient用于标记不参与Java默认序列化的字段,这在Flink状态管理中尤为重要。文章指出,Flink中的State(如ValueState)实际上是运行时句柄而非业务数据,必须标记为transient以避免序列化问题。同时强调State应在open()方法中初始化,而非构造函数。文中还区分了需要和不

文章图片
#java#flink#python
【Flink 2.0|Java17】DataStream API 全面详解:从执行环境到 Source / Transformation / Sink 一文打通

本文系统介绍了Apache Flink DataStream API的核心使用方法。首先概述了DataStream API作为Flink 2.0推荐的统一编程接口,采用"Source→Transformation→Sink"的流式处理模式。重点讲解了执行环境的三种创建方式,强调惰性执行机制必须显式调用env.execute()才能触发作业运行。详细说明了多种数据源读取方法,包括

文章图片
#flink#大数据
深入理解 Apache Flink 的时间语义、Watermark 与窗口触发机制

摘要:本文深入解析Apache Flink实时流计算中的三个核心概念:时间语义、Watermark和窗口机制。重点阐述事件时间(Event Time)的业务价值,以及Watermark如何解决乱序事件问题(通过maxEventTime-allowedLateness推进逻辑时间)。详细说明窗口触发条件(Watermark≥窗口结束时间),并通过真实案例演示Watermark不触发窗口的原因。最后给

文章图片
#flink#大数据
Dockerfile 的 EXPOSE 和 Docker Compose 的 ports 有什么区别?

摘要: Dockerfile中的EXPOSE仅声明容器内部服务监听的端口(如18010),属于元数据,不会自动开放端口到宿主机。而docker-compose.yml中的ports(如"18010:18010")才是真正的端口映射,将容器端口绑定到宿主机,使外部可访问。两者区别在于:EXPOSE仅作声明,ports实现实际映射。若要让服务对外可用,必须配置ports,仅写EXP

文章图片
#docker#eureka#容器
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择