logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SparkContext Error File not found /tmp/spark-events does not exist

[Error] SparkContext Error - File not found /tmp/spark-events does not exist在master节点上创建了/tmp/spark-events.然后将其分发到集群上的其他节点即可工作。mkdir /tmp/spark-eventsrsync -a /tmp/spark-events {slaves}:/tmp/spar...

#spark
spark2.x 独立集群环境搭建 | 适用于spark集群环境搭建

在开始环境搭建的教程之前,先说明下 此篇博文为作者自学过程中实际操作总结,正确性以验证,并作为一位学习者记录自己的操作过程。准备一个以上的unix系统环境 | 克隆WM虚拟机及修改系统参数的全过程克隆WM虚拟机克隆之前local模式下调试的spark虚拟机,采用克隆完整文件的模式修改unix系统参数通过上一步的克隆,得到多个unix系统环境,现在拿其中一...

#spark
hadoop-mapreduce

MapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。执行步骤map任务处理1.1 读取输入文件内容,解析成key、value对。对输入文

#mapreduce#hadoop
hadoop-yarn集群中,通过shell脚本自动化提交spark任务

spark_submit.sh#!/bin/sh# spark_submit.sh# 这是提交spark任务到yarn分布式集群上的自动化脚本export HADOOP_HOME=/home/elon/hadoop/hadoop-2.7.5spark-submit --master yarn --deploy-mode client --class org.training....

#spark#hadoop#自动化 +1
面试笔记之查看linux系统内存的几种方式

面试笔记在参加玖万里的那次校招面试中,被问到查看linux系统内存的几种方式,这个问题我在平时中没有引起重视,这次做一个总结记录。方式一:free直观的展示linux系统内存使用及交换区的容量大小等方式二:top动态实时查看系统中每一个进程的资源使用情况:方式三:cat /proc/meminfo方式四:gnome-system-monitor 一个显示最近...

hadoop-yarn集群中,通过shell脚本自动化提交spark任务

spark_submit.sh#!/bin/sh# spark_submit.sh# 这是提交spark任务到yarn分布式集群上的自动化脚本export HADOOP_HOME=/home/elon/hadoop/hadoop-2.7.5spark-submit --master yarn --deploy-mode client --class org.training....

#spark#hadoop#自动化 +1
基于MapReduce的应用案例

项目托管于 Github,欢迎Star | Fork环境说明Hadoop搭建环境:| 虚拟机操作系统: CentOS6.364位,单核,1G内存| JDK:1.7.0_60 64位| Hadoop:2.4.1MR程序编译环境:| Eclipse IED| mapred.LocalJobRunner本地运行模式准备测试数据测试数据包括两个文件

#mapreduce#hadoop#github
克隆VMware虚拟机及克隆后修改系统参数的全过程

克隆VM lunix虚拟机克隆之前local模式下调试的spark虚拟机,采用克隆完整文件的模式修改unix系统参数通过上一步的克隆,得到多个unix系统环境,现在拿其中一个进行修改举例,其余部分大致相同,除了IP和主机名以外。第一步 修改mac地址在虚拟机还未启动之前,先修改该系统的mac地址,如下操作所示。生成新的mac地址,并用记事本记录

#linux
基于Hadoop的分布式云存储系统

项目托管于 Github,欢迎Star | Fork 留言互相学习 基于Hadoop的分布式云存储系统项目简介HDFS网盘,用户注册登录后可以将数据文件保存到云端的一种分布式云存储系统,可以在任何时候通过浏览器对文件进行管理和下载等操作。项目采用B/S结构和MVC开发模式,基于HDFS文件操作API,使用JSP+Servlet开发实现以及Bootstrap框架渲染。主要完成对文件的管理...

#hadoop#hdfs
到底了