Echo_Wish 个人主页

@weixin_46178278

Echo_Wish

记录下我的总结、思考、感悟。

广东

2022-06-28 15:29:28 加入 DevPress

简介

分享一下自己的心得和对自己对你的一个认真学习的一个鼓励一个flag吧。现在主要在分享python人工智能相关的知识。分享正能量以及交流一些软件的用法比如linux和编程语言(现在主要在学python和linux)。希望我的博客能带给你一个正能量的心情以及以后能一起交流一下如何写出更好更优雅的代码。

擅长的技术栈

后端Python.NET

可提供的服务

开发/咨询等

别被“结构化”骗了：聊聊 Spark Structured Streaming 的原理与那些年我踩过的坑

Spark Structured Streaming 看似简单的流处理框架，实则暗藏诸多陷阱。文章揭露了其"微批处理+状态管理+检查点"的核心原理，指出新手常犯的四大错误：未设置watermark导致状态膨胀、错误选择outputMode引发延迟、误解Kafka exactly-once保证、流式Join造成状态爆炸。作者强调该框架适合简单ETL和容忍延迟的场景，但不适用于超低

#spark #linq #大数据

Kafka Streams vs Flink：别再纠结了，选错不是技术问题，是场景没想清楚

本文对比了Kafka Streams和Flink两种流处理技术的适用场景与特点。Kafka Streams是一个轻量级Java库，适合业务耦合度高、规模较小的场景，如订单状态流转、用户行为聚合等，具有低运维、快交付的优势。Flink则是专业的流计算引擎，擅长处理复杂的时间语义、超大状态和实时数仓等场景，但学习曲线陡峭且运维复杂。作者建议选型应根据团队规模和业务需求决定：Kafka Streams适

#kafka #flink #linq

别再纠结了：Lambda 还是 Kappa？流批统一这件事，真没你想得那么玄乎

摘要： Lambda与Kappa架构之争本质是工程权衡。Lambda通过流批双链路兼顾实时与准确，但维护成本高；Kappa以单一流处理简化架构，却面临历史数据重放、状态管理等硬伤。现实场景中，需根据重算频率、历史跨度和指标复杂度选择：高频回溯或复杂业务倾向Lambda，轻量实时场景适合Kappa。当前趋势是融合两者优势，采用"偏Kappa的Lambda"（如Flink实时+Sp

#linq #c#

Spark / Flink 跑在 Kubernetes 上真的更香吗？聊聊那些没人提前告诉你的性能坑

大数据平台向Kubernetes迁移已成趋势，但实际落地存在诸多性能陷阱。Spark on K8s常见内存配置错误，需注意JVM开销与Pod内存限制；Shuffle若使用emptyDir会导致IO性能骤降。Flink需避免本地Checkpoint，应采用对象存储；Slot配置不当会造成CPU闲置。此外，Kubernetes调度延迟会影响流处理实时性，Spark Driver单点问题也需关注。虽然K

#spark #flink #kubernetes

你还在“出问题才查日志”？用 Prometheus + Grafana，把大数据平台变成“会说话”的系统！

摘要：传统运维常陷入“出问题才查日志”的被动模式，而Prometheus + Grafana可将大数据平台（如Kafka/Spark/Flink）转变为“会说话”的可观测系统。核心价值在于：主动感知异常：通过实时采集Metrics（如CPU、Kafka Lag、Flink延迟）并可视化，提前发现性能劣化，而非事后救火。三层监控体系：基础资源（CPU/内存）服务状态（JVM/GC）业务语

#prometheus #grafana #大数据

别让医保钱“乱花”——用数据分析把医疗保险费用算明白！

#数据分析 #数据挖掘 #人工智能

数据出了问题别再全员背锅了：聊聊数据血缘如何成为合规与排障的“监控摄像头”

数据血缘正成为企业数据治理的关键基础设施，它通过记录数据从产生到消费的完整流转链路，有效解决数据合规审计与故障排查难题。随着数据规模激增，传统人工记忆依赖关系的方式已无法应对数万张表和任务的复杂场景。数据血缘系统不仅能快速定位问题根源（如5分钟修复8小时排查的字段变更问题），还能在合规审计中提供完整数据链路证明，并对上线变更进行风险评估。文章通过Python代码演示了简易血缘分析系统的实现原理，并

#人工智能

数据出了问题别再全员背锅了：聊聊数据血缘如何成为合规与排障的“监控摄像头”

#人工智能

权限全靠管理员拍脑袋？聊聊数据平台里的ABAC和RBAC到底该怎么落地

本文探讨了大数据平台中权限管理的重要性，比较了RBAC（基于角色的访问控制）和ABAC（基于属性的访问控制）两种模型。RBAC通过角色简化权限管理，但容易导致"角色爆炸"；ABAC则通过用户、资源和环境属性实现更细粒度的控制。作者建议采用RBAC+ABAC混合模式，用RBAC构建骨架，ABAC提供细粒度控制，并介绍了Apache Ranger等工具如何支持这种架构。文章强调，未来权限管理将越来越依

#大数据

服务器一重启就“卡成狗”？冷启动优化，才是很多系统真正的生死线

摘要：冷启动已成为现代系统稳定性的核心挑战，尤其在Kubernetes、Serverless等动态架构下更为致命。常见问题包括镜像过大、应用初始化过重、数据库连接风暴和暴力缓存预热。优化核心在于"延迟初始化"：精简Docker镜像（多阶段构建）、懒加载关键资源、控制数据库初始连接数、合理配置K8s的startupProbe，以及JVM的CDS/GraalVM方案。反直觉的是，系统启动应保持轻量级

#服务器 #运维

共 107 条

请选择