logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark 性能优化指南:算子调优 + 内存管理,一篇文章吃透核心原理!

【Spark性能优化核心指南】本文从算子调优和内存管理两大维度深入解析Spark性能优化策略。关键点包括: 1.算子优化:区分宽窄依赖,推荐reduceByKey替代groupByKey,善用广播join解决大表关联,mapPartitions提升批量处理效率,合理使用repartition。 2.内存管理:详解Executor内存结构,给出企业级配置建议(8G内存+3核CPU),强调2-4核最佳

#spark#性能优化#大数据
《YARN vs Kubernetes:大数据资源调度谁称王?深度对比告诉你答案!》

项目YARNKubernetes调度能力基础强大隔离能力一般顶级扩容弱强适用场景传统大数据云原生、大数据、AI趋势逐渐减少成为主流结论:如果你的公司正在使用 Flink / Spark / Kafka / ClickHouse → 强烈建议往 K8s 迁移。如果你是传统 Hive/MapReduce 体系 → YARN 足够好用。如需交流具体项目实践,也欢迎留言评论。

#kubernetes#大数据#容器 +1
《大厂数据工程师必备:Hive 执行计划(EXPLAIN)解析与 SQL 优化指南》

数据倾斜终极解决方案摘要 数据倾斜是大数据处理中的常见性能瓶颈,表现为特定Key分布不均,导致单个Task负载过高,拖慢整体计算。本文系统总结了数据倾斜的成因、判断方法和12种工业级优化方案: 成因:GroupBy、Join等操作触发Shuffle后,超级大Key(如NULL、0、热门ID)集中在少数分区。 判断:通过Task执行时间、数据分布检查或日志提示识别倾斜。 核心方案: 过滤异常Key(

#hive#sql#hadoop +2
Spark 性能优化指南:算子调优 + 内存管理,一篇文章吃透核心原理!

【Spark性能优化核心指南】本文从算子调优和内存管理两大维度深入解析Spark性能优化策略。关键点包括: 1.算子优化:区分宽窄依赖,推荐reduceByKey替代groupByKey,善用广播join解决大表关联,mapPartitions提升批量处理效率,合理使用repartition。 2.内存管理:详解Executor内存结构,给出企业级配置建议(8G内存+3核CPU),强调2-4核最佳

#spark#性能优化#大数据
从数据到数字人:文旅智能化背后的四大核心

《文旅智能化四要素:数据-知识-智能-交互的演进链》摘要:文旅行业智能化转型依托四大核心要素构成完整技术生态链。高质量数据集作为地基,提供清洗治理后的可信数据资产;文旅知识库通过结构化知识图谱构建语义关系网络;大模型作为智能中枢,融合数据和知识实现推理与生成能力;数字人则作为交互载体,将智能服务具象化。四者形成"数据→知识→智能→交互"的递进关系,共同支撑智慧文旅场景落地,如襄

#人工智能
高质量数据集:驱动文旅行业智能化转型的底层力量

【摘要】AI时代下,文旅行业正从"有数据"向"懂数据"转型。高质量数据是智慧文旅的核心生产力,需通过多源采集、数据治理、智能标注、构建数据底座四步法打造。优质数据将赋能精准营销、智慧景区、政策决策等六大场景,推动行业从数字化迈向智能化。未来文旅竞争关键在于数据应用能力,高质量数据集将成为产业升级的底层支撑。(150字)

《旅游行业数据治理实战:一个指标,全系统统一!》

摘要: 旅游行业数据标准化是解决“数据打架”的关键。以“游客量”指标为例,不同部门统计结果差异大,根源在于指标定义不统一、口径不一致。数据标准化通过统一指标定义、计算逻辑和命名规范,确保全系统数据一致。以某省级文旅数据中台为例,通过构建指标字典(如dim_indicator_dict)、统一维度表(如景区、渠道)和指标模型(如dwm_scenic_daily_metrics),实现268个指标的标

#旅游#大数据
大数据日志采集最佳实践:从 SDK 埋点到 Flume + Kafka 高效入仓!

本文系统介绍了企业级日志采集全链路体系,从业务埋点设计到数据入仓的完整流程。核心内容包括:1)埋点规范与版本控制的重要性;2)日志采集典型架构(前端/服务日志→Agent→Kafka→存储计算);3)关键组件优化(Flume性能调优、Kafka分区设计);4)实时/离线双通道入仓策略;5)全链路质量监控与治理方案。文章强调日志采集是数据价值挖掘的基础,需要构建稳定高效的数据通道,为后续分析应用提供

#大数据#kafka#flume
《Flume 多数据源采集实战:打造高效、稳定的 Sink 架构指南!》

📌 Flume多源数据采集优化实战摘要 企业级实时数据架构中,Flume凭借多源日志采集能力仍是核心组件。面对多源汇聚(Web日志、订单数据、IoT流)与多目标(Kafka/HDFS)写入的复杂场景,需通过分层架构(采集层+汇聚层)与Sink优化保障稳定性。 🔧 关键优化点: 1️⃣ Kafka Sink:批量提交(batchSize=500)、LZ4压缩、分区并发控制; 2️⃣ HDFS S

#大数据#kafka#flume
《一文搞懂大数据任务调度:批处理与流式调度最佳实践》

数据调度与工作流是大数据平台的核心管理组件,主要分为批处理调度和流式调度两大类。批处理调度(如Airflow/Oozie/Azkaban)适合定时任务和ETL流程,特点为分钟级延迟、依赖驱动;流式调度(如Flink CEP)则实现毫秒级实时处理,适用于风控监控等场景。选型需结合业务需求:批处理选Airflow,实时场景用Flink,混合架构可通过消息队列衔接。调度平台如同"定时班车&qu

#大数据
    共 29 条
  • 1
  • 2
  • 3
  • 请选择