spark集群上运行helloworld程序--WordCount

环境centOS6.5spark1.6利用idea编写WC程序创建maven项目File --> close Project -->Create New Project选择MavenNext，来到Maven项目最重要三个参数的设置页面，这三个参数分别为：GroupId, ArtifactId和Version为了更好的解释这三个字段，用Spark 1.

-Heres-

4039人浏览 · 2017-08-27 13:34:00

-Heres- · 2017-08-27 13:34:00 发布

环境

centOS6.5

spark1.6

利用idea编写WC程序

创建maven项目

File --> close Project -->Create New Project

选择Maven

Next，来到Maven项目最重要三个参数的设置页面，这三个参数分别为：GroupId, ArtifactId和Version

为了更好的解释这三个字段，用Spark 1.6.2的核心组件的Maven标识符为例来进行讲解。
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>1.6.2</version>
GroupId，可以理解为用来标志你整个项目组的，或者你这些代码属于某一个完整的项目，比如上面的org.apache.spark就可以非常好的来标志Apache的Spark这个项目了。一般来说可以使用倒序的公司网址来作为GroupId，这可以类比为，沿袭了Java项目中使用倒序公司网址来作为Package名称的一个惯例。
ArtifactId，一般是用来在整个项目组来标志本项目的，相比GroupId的范围，其概念要稍微小一些，比如spark-core_2.11就非常好的表示出了本项目主要是关于Spark的核心基础组件的，从而能够与Spark其他各种组件或架构很好的区分开来。
Version，正如字面意思，就是本项目的迭代版本的信息，如上面的1.6.2.
现在，比如你的公司名称叫做abc，然后你的项目组叫做test，那就可以使用com.abc.test来作为GroupId，然后将ArtifactId取做myFirstProject，版本号就使用它默认的就好了（当然，如果你的项目以后有迭代更新版本的话，这个是需要按照实际情况进行改动的）。这三个字段设置完毕后，点击Next，来到项目名称设置页面，一般可以和ArtifactId字段保持一致，当然也可以不一致，这个只是为了给本项目取个名字而已。

具体可以参考博客：http://www.jianshu.com/p/ecc6eb298b8f

具体代码

pom.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.heres.spark</groupId>
    <artifactId>hello-spark</artifactId>
    <version>1.0</version>

    <properties>
        <maven.compiler.source>1.7</maven.compiler.source>
        <maven.compiler.target>1.7</maven.compiler.target>
        <encoding>UTF-8</encoding>
        <scala.version>2.10.6</scala.version>
        <spark.version>1.6.1</spark.version>
        <hadoop.version>2.6.4</hadoop.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
    </dependencies>

    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
        <testSourceDirectory>src/test/scala</testSourceDirectory>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                        <configuration>
                            <args>
                                <arg>-make:transitive</arg>
                                <arg>-dependencyfile</arg>
                                <arg>${project.build.directory}/.scala_dependencies</arg>
                            </args>
                        </configuration>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.3</version>
                <configuration>
                    <createDependencyReducedPom>false</createDependencyReducedPom>
                </configuration>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>


</project>

这里需要将src/main和src/test下的java文件改成scala，不然配置文件会报错。

右键main/scala文件夹,新建.scala文件

WordCount.scala文件

package cn.heres.spark

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by vinsuan on 2017/8/26 0026.
  */
object WordCount {
  def main(args: Array[String]) {
    //非常重要，是通向Spark集群的入口
    val conf = new SparkConf().setAppName("WC")
    val sc = new SparkContext(conf)

    sc.textFile(args(0)).flatMap(_.split(" ")).map((_, 1))
      .reduceByKey(_+_).sortBy(_._2, false).saveAsTextFile(args(1))
    sc.stop()
  }
}

达成jar包

成功达成jar之后，有厂产生一个target目录，生成两个jar文件，其中一个把依赖也打包进去了，一个则没有。

向spark集群提交任务

利用第三方工具将jar包上传至centos

启动hdfs和spark可以参考博客：http://blog.csdn.net/vinsuan1993/article/details/76222159

运行命令：

bin/spark-submit --master spark://heres01:7077 --class cn.heres.spark.WordCount --executor-memory 512m  --total-executor-cores 2 /root/hello-spark-1.0.jar hdfs://192.168.2.112:9000/wc  hdfs://192.168.2.112:9000/wcok

查看结果：

[root@heres01 spark-1.6.1-bin-hadoop2.6]# hdfs dfs -ls /wcok
Found 4 items
-rw-r--r--   3 root supergroup          0 2017-08-27 12:56 /wcok/_SUCCESS
-rw-r--r--   3 root supergroup         11 2017-08-27 12:56 /wcok/part-00000
-rw-r--r--   3 root supergroup          8 2017-08-27 12:56 /wcok/part-00001
-rw-r--r--   3 root supergroup         30 2017-08-27 12:56 /wcok/part-00002
[root@heres01 spark-1.6.1-bin-hadoop2.6]# hdfs dfs -cat /wcok/p*
(hello,15)
(tom,6)
(world,3)
(jerry,3)
(kitty,3)
[root@heres01 spark-1.6.1-bin-hadoop2.6]#