windows下python结合spark +java+ pyspark安装配置

默认你已经安装好了python一、 Java配置首先去官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载Java SE Development Kit 8u172，安装之后。进行以下步骤：1.新建系统变量：变量名：JAVA_H...

Eadon999

1698人浏览 · 2018-04-19 22:57:14

Eadon999 · 2018-04-19 22:57:14 发布

默认你已经安装好了python

一、 Java配置

首先去官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载Java SE Development Kit 8u172，安装之后。进行以下步骤：

1.新建系统变量：

变量名：	JAVA_HOME
变量值：	F:\Java\jdk1.8.0_172(即java的jdk安装目录)

2.再新建一个系统变量

变量名：	CLASSPATH
变量值：	.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;

3.在系统变量Path中逐个添加以下四个：

%JAVA_HOME%\bin

%JAVA_HOME%\jre\bin

F:\Java\jdk1.8.0_172\bin

Tips：bin前的路径视自己java安装路径调整

F:\Java\jre1.8.0_172\bin

Tips：bin前的路径视自己java安装路径调整

4.验证是否安装完成

在cmd中输入java

在cmd中输入javac

没有报错就是java配置完成

二、 spark安装

（一）spark环境配置

1.去http://spark.apache.org/downloads.html网站下载相应spark

解压下载的文件，假设解压目录为：F:\spark-1.8.0-bin-hadoop2.7。

2.新建系统变量，变量名：SPARK_HOME

变量值为：F:\spark-1.8.0-bin-hadoop2.7

3.将F:\spark-1.8.0-bin-hadoop2.7添加到系统Path变量，Tips：bin前的路径视自己java安装路径调整

（二）安装必须要依赖的hadoop

1.去http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.0/hadoop-3.1.0.tar.gz下载hadoop-3.1.0.tar.gz，但是不要下载hadoop-3.0.1-src.tar.gz这个

2.解压下载的文件夹，将相关库添加到系统Path变量中：F:\hadoop-3.1.0\bin；

3.新建变量，变量名为HADOOP_HOME，变量值为：F:\hadoop-3.1.0

（三）收尾

1.把java、hadoop、spark中的bin加入到系统变量Path中

2.然后在cmd中输入pipinstall pyspark

3.pyspark安装完成后，在cmd中输入pyspark显示下图，表示安装完成，可以直接输入python代码进行功能实现

4.在pycharm中输入代码：

from pyspark import SparkContext

logFile = "F:/spark-2.3.0-bin-hadoop2.7/README.md"
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i"%(numAs, numBs))