
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、YARN1、概述2、YARN的结构二、YARN的执行流程三、ResourceScheduler-资源调度器1、FIFO(先进先出)2、Capacity(资源容量)3、Fair(公平资源)四、完全分布式结构1、结构2、常见问题Operation category READ is not supported in state standby.3、添加节点五、Federation HDFS-联邦HD

一、大数据简介1、简介①、美国调研机构Gartner给出了定义:大数据是一种新的处理模式,针对海量数据能够提供更强 的决策力、洞察发现力和流程优化能力②、维基百科给出了定义:大数据是指无法在可承受的时间范围内用常规的软件或者法来对大量的数据进行捕捉、管理和处理③、无论哪个机构对大数据进行定义,实际上都是围绕对海量数据进行快速有效的处理方案2、特点Volumn:数据体量大。很多中小型企业的入门数据量

一、MapReduce1、概述MapReduce是Hadoop提供的一套进行分布式计算机制MapReduce是Doug Cutting根据Google的论文<The Google MapReduce>来仿照实现的MapReduce会将整个计算过程拆分为2个阶段:Map阶段和Reduce阶段。在Map阶段,用户需要考虑对数据进行规整和映射;在Reduce阶段,用户需要考虑对数据进行最后的

一、基本SQL1、SQL的执行方式2、注意问题二、基本SQL命令三、基本表结构1、内部表和外部表2、分区表3、分桶表四、数据类型1、概述2、复杂类型

目录一、项目概述1、概述二、字段解释分析1、数据字段2、应用大类3、应用小类三、项目架构四、数据收集清洗1、数据收集2、数据清洗五、Sqoop使用1、简介2、Sqoop安装步骤3、Sqoop的基本命令六、数据导出七、数据可视化1、概述2、步骤八、扩展1、各个网站的表现能力2、小区HTTP上网能力3、小区上网喜好4、查询语句一、项目概述1、概述①、当用户通过网络设备(手机、平板电脑、笔记本电脑等).

一、Spark Sql1、概述Spark为了结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。2、由来SparkSQL的前身是Shark。在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,是当时唯一运行在h

一、Hbase的基本架构1、HRegion①、在Hbase中,会将一个表从行键方向上进行切分,切分成1个或者多个HRegion②、切分之后,每一个HRegion都会交给某一个HRegionServer来进行管理③、一个表至少会包含一个HRegion,可以包含多个HRgion④、在HBase中,行键是有序的,因此从行键方向上来进行切分,所以HRegion之间的数据是不交叉的⑤、因为HRegionSe

一、Spark集群架构1、概述二、Saprk调度模块1、概述2、Scheduler的实现概述3、任务调度流程图4、细化三、Spark shuffle详解1、概述2、Hash Based Shuffle Manager3、Sort Based Shuffle Manager四、Shuffle相关参数配置1、概述2、常见配置①、spark.shuffle.manager②、spark.shuffle.

Hive由Facebook开源用于解决海量结构化日志的数据统计工具Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
一、SparkStreaming介绍1、概述Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力,以吞吐量高和容错能力强著称。实时流处理指的是随着数据的实时到达,进行实时计算。目前做实时流计算的框架:Storm、SparkStreaming、Flink上图:为SparkStreaming实时流计算的过程。我们总结如下知识点:①、Spark
