Spark-2.4.0下载地址:
官方地址:https://archive.apache.org/dist/spark/spark-2.4.2/spark-2.4.2.tgz
编译Spark源码的文档(参考官方文档)
http://spark.apache.org/docs/latest/building-spark.html
编译Spark源码的前置要求
软件 | Hadoop | scala | maven | JDK |
---|---|---|---|---|
版本 | 2.6.0-cdh5.7.0 | 2.11.12 | 3.6.1 | jdk1.8.0_45 |
编译与配置:
1解压Spark源码:
1 | [hadoop2.4.2.tgz 001 software]$ ll spark- |
修改make-make-distribution.sh中的版本号,避免编译时自己取寻找
make-distribution.sh脚本的Github地址:
https://github.com/apache/spark/blob/master/dev/make-distribution.sh
1 | [hadoop2.4.2]$ vim dev/make-distribution.sh 001 spark- |
3.修改 pom.xml文件
如果要编译 cdh,必须要添加一个仓库
1 | [hadoop2.4.2]$ vim pom.xml 614 spark- |
4.编译命令
通过观察pom.xml,可以观察到编译Spark的时候,如果不手动指定hadoop与yarn的版本,会默认采用hadoop、yarn的版本
1 | [hadoop2.4.2]$ pwd 001 spark- |
解压部署
1.解压
1 | [hadoop2.4.2]$ ll spark-2.4.2-bin-2.6.0-cdh5.7.0.tgz 001 spark- |
2.配置环境变量
1 | [hadoop@hadoop001 app]$ vim ~/.bash_profile |
启动Spark
1 | [hadoop2.4.2]$ ./spark-shell 001 spark- |
master:运行的模式
local:表示在本地上运行