logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据之Hadoop】十七、MapReduce之数据清洗ETL

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起,为决策提供分析依据。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。

文章图片
#大数据#hadoop#mapreduce +1
【大数据之Hadoop】十二、MapReduce之Partition分区

(3)如果ReduceTask的数量==1,则不管MapTask端输出多少分区文件,最终结果都交给一个 ReduceTask,即使用默认分区,只产生一个结果文件。(2)如果 1 < ReduceTask的数量 < getPartition的结果数,则有部分分区数据无处存储,会抛出IO异常。(3)自定义Partition后,根据自定义的逻辑设置相应数量的ReduceTask。不设置时默认为1,则使用

文章图片
#hadoop#大数据#mapreduce
【大数据之Hive】二十、Hive之调优相关配置及Explain查看执行计划

执行计划简单来说就是一个SQL语句最终翻译成多少个MapReduce,Map里做了什么,Reduce里做了什么。Explain显示的执行计划,由一系列Stage(整个执行计划的一个阶段,一条SQL语句会把整个阶段分为若干个执行计划)组成,Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。

文章图片
#大数据#hive#hadoop
【大数据之Hadoop】二十九、HDFS存储优化

纠删码和异构存储测试需要5台虚拟机。准备另外一套5台服务器集群。(1)克隆hadoop105为hadoop106,修改ip地址和hostname,然后重启。(2)关闭集群,删除所有服务器Hadoop的data和logs文件。(3)在hadoop102上修改xsync和jpsall文件,把hadoop105和hadoop106加上。xsync存储地址:/bin,在root下修改,然后后分发xsync

文章图片
#hadoop#hdfs#大数据
【大数据之Hadoop】二十八、生产调优-HDFS集群扩容及缩容

增加或缩减服务器,注意不允许白名单和黑名单同时出现同一个主机。

文章图片
#hadoop#大数据#hdfs
【大数据之Kafka】十二、Kafka之offset位移及漏消费和重复消费

依次启动CustomConsumerAutoOffset和CustomProducerCallback,观察CustomConsumerAutoOffset能不能接受到数据,能接受则说明自动提交offset功能是ok的。先提交offset后消费、设置offset为手动提交,当offset被提交时,数据还在内存中国没有落盘,此时刚好消费者线程被kill掉。虽然自动提交offset十分简单便利,但由于

文章图片
#大数据#kafka#linq
Exception in thread “main“ java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$

下载winutils,解压对应的hadoop版本,将bin目录下的hadoop.dll系统文件拷贝到C盘的C:\Windows\System32目录下。下载地址:https://github.com/kontext-tech/winutils。报错原因:本地的hadoop版本与lib文件中替换的编译hadoop.dll版本不对应。1、在项目中创建一个包名为org.apache.hadoop.io.

文章图片
#hadoop#java#apache
【大数据之Hive】二十一、HQL语法优化之分组聚合优化

在Hive中没有优化过的分组聚合:通过MR任务实现。Map端负责读数据,按分区字段分区,通过Shuffle,将数据发往Reduce端,各组数据在Reduce端完成最终的聚合运算。Hive分组聚合优化主要针对减少Shuffle的数据量,使用map-site聚合,在map端维护一个hash table,对数据进行聚合,聚合结果按分组字段分区发送到reduce端。

文章图片
#hive#大数据#hadoop +1
【大数据之Hive】六、Hive之metastore服务部署

metastore为Hive CLI或Hiveserver2提供元数据访问接口。

文章图片
#hive#大数据#hadoop
【股票分析二】带你一步一步利用Tushare获取股票数据、进行清洗再利用机器学习聚类分析并结果可视化

tushare ID:441914我是用jupyter做的分析,先导入相关的库,记得设置tushare的token。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.collections import LineCollectionimport matplotlib.cm as c

#数据分析#python#机器学习 +1
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择