
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
GBDT与传统的Boosting区别较大,它的每一次计算都是为了减少上一次的残差,而为了消除残差,我们可以在残差减小的梯度方向上建立模型,所以说,在GradientBoost中,每个新的模型的建立是为了使得之前的模型的残差往梯度下降 的方向,与传统的Boosting中关注正确错误的样本加权有这很大的区别在GrandientBoosting算法中,关键就是利用损失函数的负梯度方向在当前模型的值作为残

Spark中小文件问题严重影响性能,主要表现为NameNode内存压力、任务调度低效、存储浪费和I/O开销大。产生原因包括数据源本身小文件、过度动态分区、Task设置过多等。解决方案分三方面:1)源头预防:使用DISTRIBUTE BY控制输出文件数,调整并行度参数;2)写入时自动合并:开启spark.sql.mergeSmallFiles.enabled并设置阈值;3)事后补救:通过repart
Apache Flink 是一款,以其和而闻名。它能高效地处理(批处理)和(流处理)数据流,是构建实时数仓、在线机器学习、复杂事件处理等应用的基石。下面我将梳理 Flink 的核心概念、关键特性、典型应用场景及学习路径。
本文探讨了数据治理中的服务水平协议(SLA)及其应用。SLA是服务提供方与接受方关于服务水平的正式约定,包含服务内容、量化目标、测量方法和责任条款。在数据治理中,SLA用于确保数据质量、时效性和可用性,明确各方责任。 文章详细介绍了SLA的核心要素,包括服务指标(SLI)、目标值(SLO)和协议内容(SLA),并阐述了数据治理中常见的SLA类型:数据平台级、数据产品级、数据质量级和治理流程级。同时

本文介绍了使用Docker部署Hadoop和Flink集群的详细过程。作者基于CentOS镜像构建了包含SSH、JDK和Hadoop的基础镜像,创建了三台容器组成Hadoop集群。通过自定义Docker网络实现容器间通信,配置SSH免密登录和hosts文件确保节点互联。文章详细说明了Hadoop核心配置文件的修改方法,包括core-site.xml、hdfs-site.xml等,并强调了版本兼容性

作者是前亚马逊、迪士尼资深工程师使用claude code的经验,干货满满,推荐阅读原文以下是自己的一个阅读心得,分享给大家。

数据倾斜是分布式计算中数据分布不均衡的现象,会导致部分任务处理过载而拖慢整体性能。本文系统分析了数据倾斜的成因、识别方法及解决方案。通过Spark Web UI可定位倾斜的Stage和Task,常见于Shuffle类算子如groupBy、join等。优化策略包括:调整并行度、过滤异常Key、两阶段聚合、优化Join策略等,并介绍了Spark 3.0+的AQE自动倾斜处理功能。文章提供了流程图和对比
Spark中小文件问题严重影响性能,主要表现为NameNode内存压力、任务调度低效、存储浪费和I/O开销大。产生原因包括数据源本身小文件、过度动态分区、Task设置过多等。解决方案分三方面:1)源头预防:使用DISTRIBUTE BY控制输出文件数,调整并行度参数;2)写入时自动合并:开启spark.sql.mergeSmallFiles.enabled并设置阈值;3)事后补救:通过repart
Spark操作性能差异分析:Window函数与GroupBy对比 摘要: 本文比较了Spark中Window函数和GroupBy操作的性能差异。GroupBy操作总会触发shuffle,而Window函数在数据已按partitionBy列分区时可避免shuffle。两者核心区别在于:Window函数添加计算列不改变行数,GroupBy则聚合减少行数。通过分段计数过滤案例对比,Window版本只需单
令人不悦的两种情况对于核心数据,如日活,只知道数据在变化,但不知道为何变化,特别是处于一个较大跌幅时,产品为了解释这种现象,就会向数据分析师要各种纬度的数据每隔一段时间,产品都会拉上数据、研发一起对埋点,总是觉得当前的字段不够用,底层日志越来越大,数仓修改的越来越多,取数越来越慢,错误越来越多根本原因都是在于缺少指标体系的建设、宣贯以及实施业务方不重视指标体系是感觉指标体系是基建活,离完成KPI太








