logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据Hadoop之MR数据去重

1、数据去重"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据。样例输入如下所示:file1:2012-3-1 a2012-3-2 b2012-3-3 c...

可视化实验七:大数据可视化工具—Processing(二)

实验目的:掌握元胞自动机的概念及构建方法利用Processing绘制森林火灾模型实验内容:复习如何使用Processing绘制点、线、圆、椭圆、曲线等练习使用Processing构建二维元胞自动机在步骤二基础上构建一个森林火灾蔓延的可视化模型实验过程(附结果截图):1.复习如何使用Processing绘制点、线、圆、椭圆、曲线等(1)复习绘制点、线、圆、椭圆(2)复习绘制四边形2.构建一个森林火灾

#python#数据可视化
大数据Hadoop之终于弄懂了MapReduce中reduce阶段Iterable迭代出的是同一个对象

1. 前言:之前在看一个老师写流量统计案例时,他刚开始的Mapper代码是这样写的:然后他说这样每次都要造对象,所以他改成了这样:但是这样我就不理解了,因为你每次获取一行数据都要将其对应的上行流量、下行流量放到一个对象中,又因为每一行的数据不同,所以你每次都应该new 一个对象,用来存放数据。如果改成第二种方式,在对一个文件每一行数据读取时,你始终用的就是同一个对象,你每次set值都是对前一个值得

#hadoop#大数据#mapreduce
大数据Hadoop之MR Combiner案例实操

1.需求统计过程中对每一个MapTask的输出进行局部汇总,以减小网络传输量即采用Combiner功能。(1)数据输入atguigu atguiguss sscls clsjiaobanzhangxuehadoop(2)期望输出数据期望:Combine输入数据多,输出时经过合并,输出数据降低。2.需求分析(我们采用方案一)3.案例实操Combinerpackage com.mapreduce.wo

#大数据#mapreduce#hadoop
可视化实验四:大数据可视化工具—ECharts(二)

实验目的:了解ECharts和pyecharts数据可视化的特点掌握ECharts和pyecharts的简单操作能够使用ECharts和pyecharts实现数据可视化操作实验内容:练习掌握pyecharts的安装和使用方法练习使用pyecharts绘制柱状图、仪表盘图、3D图、雷达图、面积图等实验过程(附结果截图):1.练习掌握pyecharts的安装和使用方法(1)打开Windows命令窗口,

#数据可视化#python
大数据Hadoop之Hadoop序列化案例实操

1.需求:统计每一个手机号耗费的总上行流量、下行流量、总流量(1)输入数据:113736230513192.196.100.1www.atguigu.com248124681200213846544121192.196.100.22640200313956435636192.196.100.31321512200413966251146192.168.100.1240040451827157595

#mapreduce#大数据#hadoop +1
大数据Hadoop之MR TopN案例

1.需求对输入数据进行加工,输出流量使用量在前10的用户信息(1)输入数据1347025314418018036013509468723733511034911768413560439638918493858561356843665635972563529232135904396681116954207013630577991696069076501368284655519382910484813

#hadoop#大数据#mapreduce
可视化实验八:利用Python绘制柱状图、条形图

实验目的:掌握Python中柱状图、条形图绘图函数的使用利用上述绘图函数实现数据可视化实验内容:练习python中柱状图、条形图绘图函数的用法,掌握相关参数的概念根据步骤一绘图函数要求,处理实验数据根据步骤二得到的实验数据,绘制柱状图、条形图练习如何通过调整参数使图片呈现不同效果,例如颜色、图例位置、背景网格、坐标轴刻度和标记等实验过程(附结果截图):1. 练习python中柱状图、条形图绘图函数

#python#数据可视化
大数据技术原理与应用实验五

实验:五实验题目:熟悉常用的HDFS操作-利用Java API编程实现1.实验目的·熟悉HDFS操作常用的Java API。2.实验平台· Hadoop 2.7.1· Eclipse· jdk3.实验内容· 在eclipse软件(或者其他Java IDE),使用java 语言编写能实现下面功能的程序:在hdfs上,创建新文件夹 如 input。从本地系统上传一个文...

可视化实验五:大数据可视化工具—NodeXL

实验目的:了解NodeXL数据可视化的特点掌握NodeXL的简单操作能够使用NodeXL实现数据可视化操作实验内容:练习掌握NodeXL的安装和基本操作方法练习使用NodeXL进行绘制网络图形练习如何使用动态过滤器功能对网络图形进行过滤练习如何使用子图图像功能创建和保存子图,使用群组功能根据节点属性创建群组,实现群组的折叠、展开、选择等操作实验过程(附结果截图):1.练习掌握NodeXL的安装和基

#数据可视化#网络
    共 27 条
  • 1
  • 2
  • 3
  • 请选择