logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MapReduce(分布式计算框架)

什么是MapReduceMapReduce是分布式计算框架,它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务,适用于大规模数据处理场景,每个job包含Map和Reduce两部分MapReduce的设计思想分而治之:简化并行计算的编程模型构建抽象模型:Map和Reduce隐藏系统层细节:开发人员专注于业务逻辑实现MapReduce特点优点:易于编程可扩展性高容错性高吞吐量缺点:难以实时计

#hadoop#mapreduce#大数据
Hadoop伪分布式搭建Hbase和Hive

一、安装准备系统centos7:centos7安装Hadoop伪分布式的搭建请参照:伪分布式搭建mysql安装:centos7安装mysqlhbase版本:hbase-1.2.0-cdh5.14.2.tar.gzhive版本:hive-1.1.0-cdh5.14.2.tar.gz安装包需要自取(6z6z):hive、hbase安装包二、Hbase安装、配置将hbase安装上传到/opt目录下解压h

#hive#hadoop#hbase +1
Spark SQL解析json文件

Spark SQL解析json文件一、get_json_object二、from_json三、explode四、案例:解析json格式日志数据数据处理先介绍一下会用到的三个函数:get_json_object、from_json、explode一、get_json_object从一个json 字符串中根据指定的json 路径抽取一个json 对象def get_json_object(e: org

#json
到底了