
简介
java/大数据/前端
擅长的技术栈
可提供的服务
java/大数据/前端
大数据之Spark 源码分析
大数据之Azkaban 概论完整使用一 集群模式安装1 上传 tar 包二级目录三级目录一 集群模式安装1 上传 tar 包1)将 azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-webserver-3.84.4.tar.gz 上传到 hadoop102 的/opt/software 路径[atguigu@ha
DStream上的操作与RDD的类似,分为Transformations(转换)和OutputOperations(输出)两种,此外转换操作中还有一些比较特殊的原语,如updateStateByKey()、transform()以及各种Window相关的原语。
Zookeeper 学习总结阶段一学习总结阶段二学习总结阶段一学习总结阶段二学习总结
大数据之Spark 核心编程概一、RDD1、什么是 RDD2、核心属性二级目录三级目录Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是:➢ RDD : 弹性分布式数据集➢ 累加器:分布式共享只写变量➢ 广播变量:分布式共享只读变量接下来我们一起看看这三大数据结构是如何在数据处理中使用的。一、RDD1、什么是 RDDRDD(Re
大数据之 Flume 安装部署完整使用一、Flume 安装部署1、安装地址2、安装部署二、Flume 入门案例1、监控端口数据官方案例1)案例需求2)需求分析3)实现步骤1、安装 netcat 工具2、判断 44444 端口是否被占用3、创建 Flume Agent 配置文件 flume-netcat-logger.conf4、在 flume 目录下创建 job 文件夹并进入 job 文件夹。5、
Hive 分区表和分桶表必须会一、分区表二、分区表基本操作1、引入分区表(需要根据日期对日志进行管理, 通过部门信息模拟)2、创建分区表语法3、加载数据到分区表中(1) 数据准备(2) 加载数据(3)查询分区表中数据(4)增加分区(5)删除分区(6)查看分区表有多少分区(7)查看分区表结构三、二级分区1)创建二级分区表2)正常的加载数据3)把数据直接上传到分区目录上,让分区表和数据产生关联的三种方
大数据之Hive DML 数据操作 完整使用一、数据导入1、向表中装载数据(Load)1)语法2)实操案例二、通过查询语句向表中插入数据(Insert)1)创建一张表2)基本插入数据3)基本模式插入(根据单张表查询结果)4)多表(多分区)插入模式(根据多张表查询结果)三、创建表时通过 Location 指定加载数据路径1)上传数据到 hdfs 上2)创建表,并指定在 hdfs 上的位置3)查询数据
大数据之Scala 集合 完整使用一、集合简介1、不可变集合继承图2、可变集合继承图二、数组1、不可变数组1)第一种方式定义数组2)案例实操3)第二种方式定义数组4)案例实操2、可变数组1)定义变长数组2)案例实操3、不可变数组与可变数组的转换1)说明2)案例实操4、多维数组1)多维数组定义2)案例实操三、列表 List1、不可变 List1)说明2)案例实操2、可变 ListBuffer1)说明
SparkSQL 的前身是 Shark,给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快速上手的工具。Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了提高 SQL-on-Hadoop的效率,大量的 SQL-on-Hadoop 工具开始产生,其中表