logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据平台架构实验五---Spark分布式内存计算

一、实验概述:【实验目的】掌握Spark计算环境的搭建方法;掌握Scala/Python语言下的Spark基本程序设计方法。【实验要求】保存程序,并自行存档;最终的程序都必须经过测试,验证是正确的;认真记录实验过程及结果,回答实验报告中的问题。【实施环境】(使用的材料、设备、软件)Linux操作系统环境,VirtualBox虚拟机,Hadoop、Spark等程序。二、实验内容第1题 Spark计算

大数据平台架构实验四----MapReduce的基本使用

一、实验概述:【实验目的】掌握MapReduce计算的数据准备方法;掌握MapReduce的圆周率计算方法;掌握MapReduce的Wordcount计算方法;掌握MapReduce的正则表达式匹配计算方法。【实验要求】保存程序,并自行存档;最终的程序都必须经过测试,验证是正确的;认真记录实验过程及结果,回答实验报告中的问题。【实施环境】(使用的材料、设备、软件)Linux操作系统环境,Virtu

数据导入与预处理实验一---KETTLE数据处理

一、实验概述:【实验目的】了解和掌握数据库恢复,变换,数据统计与可视化的方法;掌握Json数据集的API下载方法,数据提取及导入其他数据结构的方法掌握不同数据格式之间的转换方法;【实施环境】(使用的材料、设备、软件) Linux或Windows操作系统环境,MySql数据库,Mysql workbench或Navicat。二、实验内容 第1题 安然(Enron)电子邮件数据集的恢复与查询【实验要求

南京大学CS课程计算机系统PA实验(一)---开发环境配置

项目地址:https://nju-projectn.github.io/ics-pa-gitbook/ics2019/The following tools are necessary for PAs:apt-get install build-essential# build-essential packages, include binary utilities, gcc, make, and

到底了