logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【hadoop】MapReduce数据清洗及导入数据到hive仓库

搜狗用户查询日志分析综合案例一.MapReduce数据清洗1.数据清洗要求(1)解决乱码问题(2)过滤少于6个字段的行(3)统一字段之间的分隔符(统一用逗号)(3)在每行前添加年,月,日字段。清洗前的数据清洗后的数据2.准备原始数据说明:1.该数据来自搜狗实验室数据下载地址2.年月日三个字段在文件名中3.该数据已经上传到HDFS3.代码详解这个案例只需要Mapper类和Driver类即可Mappe

#hadoop#mapreduce
【Spark学习】报错Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties20/04/26 00:45:36 INFO SparkContext: Running Spark version 2.4.420/04/26 00:45:36 ERROR Shell: Failed to locate the win..

#spark
到底了