Spark-2.4.0下载地址:
官方地址:https://archive.apache.org/dist/spark/spark-2.4.2/spark-2.4.2.tgz
编译Spark源码的文档(参考官方文档)
http://spark.apache.org/docs/latest/building-spark.html
编译Spark源码的前置要求
| 软件 | Hadoop | scala | maven | JDK |
|---|---|---|---|---|
| 版本 | 2.6.0-cdh5.7.0 | 2.11.12 | 3.6.1 | jdk1.8.0_45 |
编译与配置:
1解压Spark源码:
1 | [hadoop001 software]$ ll spark-2.4.2.tgz |
修改make-make-distribution.sh中的版本号,避免编译时自己取寻找
make-distribution.sh脚本的Github地址:
https://github.com/apache/spark/blob/master/dev/make-distribution.sh
1 | [hadoop001 spark-2.4.2]$ vim dev/make-distribution.sh |
3.修改 pom.xml文件
如果要编译 cdh,必须要添加一个仓库
1 | [hadoop614 spark-2.4.2]$ vim pom.xml |
4.编译命令
通过观察pom.xml,可以观察到编译Spark的时候,如果不手动指定hadoop与yarn的版本,会默认采用hadoop、yarn的版本

1 | [hadoop001 spark-2.4.2]$ pwd |
解压部署
1.解压
1 | [hadoop001 spark-2.4.2]$ ll spark-2.4.2-bin-2.6.0-cdh5.7.0.tgz |
2.配置环境变量
1 | [hadoop@hadoop001 app]$ vim ~/.bash_profile |
启动Spark
1 | [hadoop001 spark-2.4.2]$ ./spark-shell |
master:运行的模式
local:表示在本地上运行