logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark性能优化指南——高级篇 (很详细)

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证...

HDFS性能优化心得【转载】

随着Hadoop平台成为越来越多公司的数据存储和离线处理的平台,如何对Hadoop平台进行性能优化也成为一项重要的技能,那么我们应该如何Get这项技能呢?俗话说的好,工欲善其事必先利其器。下面我们看一下如何对HDFS进行性能优化。1.了解HDFS的构成和运行原理要对HDFS文件进行性能优化,必备条件是对HDFS的构成和运行原理要有一定的了解。下面我们首先分析一下HDFS的架构。HDFS...

#hadoop#hdfs
linux crontab : mailed 85 bytes of output but got status 0x004b#012 问题

查看linuxcrontab运行log(/var/log/cron)发现有大量如下报错:mailed 85 bytes of output but got status 0x004b#012解决方法:执行命令末尾追加 >/dev/null 2>&1;意思是堆积标准输出和错误输出,这样就不用发送mail了;...

最小堆原理与实现

基本概念:1、完全二叉树:若二叉树的深度为h,则除第h层外,其他层的结点全部达到最大值,且第h层的所有结点都集中在左子树。2、满二叉树:满二叉树是一种特殊的的完全二叉树,所有层的结点都是最大值。定义:1、堆是一颗完全二叉树;2、堆中的某个结点的值总是大于等于(最大堆)或小于等于(最小堆)其孩子结点的值。3、堆中每个结点的子树都是堆树。最大堆,最小堆类似,以下以最小堆为例进行讲解。最小堆是满足以下条

数据仓库分层与架构

数据仓库的定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用使用。数据仓库的特点面向主题的:数据仓库都是基于某个明确的主题,仅需要与该主题相关的数据,其他的无关细节将会被去掉。​ 集成的:数据仓库里面的数据都是经过ETL...

到底了