文章目录

前言一、前提条件二、spark的安装部署1.找到自己所需的安装包(这里用的是华为镜像云的tgz安装包)2.将下载后的安装包解压到自己的软件目录下:3.将spark-3.1.1-bin-hadoop3.2文件夹改为spark4.进入到spark中的conf目录下5.生成三个需要修改的配置文件(将文件夹的.template去掉)6.依次修改上述的三个配置文件1)输入vi spark-defaults.conf并在文件中添加以下内容:2)输入vi spark-env.sh在配置文件中添加以下内容:3)输入vi workers在配置文件中删除localhost并添加以下内容:

7.配置环境变量8. 创建spark-logs目录(需要启动Hadoop集群)9.将主节点的spark的安装包跟环境变量分发到子节点,输入以下命令:10. 在每个节点上输入以下命令,使环境变量生效:11.进入到spark安装包中的sbin目录下12.输入以下命令启动spark集群(需要启动Hadoop集群):13.使用jps查看节点数

总结

前言

本节文章在Hadoop完全分布式的基础下讲解了如何安装spark集群。

提示:以下是本篇文章正文内容,下面案例可供参考

一、前提条件

Hadoop完全分布式部署,在https://blog.csdn.net/weixin_64998435/article/details/130471426?spm=1001.2014.3001.5502中也有写到,仅供参考。

二、spark的安装部署

1.找到自己所需的安装包(这里用的是华为镜像云的tgz安装包)

直接在虚拟机中输入(等他自动下载完即可,要注意的是要跟你的Hadoop集群版本兼容才可以使用):

wget https://repo.huaweicloud.com/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

2.将下载后的安装包解压到自己的软件目录下:

命令如下(解压到local目录下):

tar -zxf spark-3.1.1-bin-hadoop3.2.tgz -C /usr/local/

3.将spark-3.1.1-bin-hadoop3.2文件夹改为spark

mv spark-3.1.1-bin-hadoop3.2.tgz spark/

4.进入到spark中的conf目录下

cd /usr/local/spark/ #结合自己的虚拟机路径

5.生成三个需要修改的配置文件(将文件夹的.template去掉)

cp spark-defaults.conf.template spark-defaults.conf

cp spark-env.sh.template spark-env.sh

cp workers.template workers

6.依次修改上述的三个配置文件

1)输入vi spark-defaults.conf并在文件中添加以下内容:

spark.master spark://master:7077

spark.eventLog.enabled true

spark.eventLog.dir hdfs://master:8020/spark-logs

spark.history.fs.logDirectory hdfs://master:8020/spark-logs

2)输入vi spark-env.sh在配置文件中添加以下内容:

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop #Hadoop的配置文件路径,根据自身配置进行修改

export JAVA_HOME=/usr/local/java #jdk的安装路径

export HADOOP_HOME=/usr/local/hadoop #Hadoop的安装路径

export SPARK_MASTER_HOST=master #spark的主机名

export SPARK_MASTER_PORT=7077 #spark的主机的端口

#export SPARK_WORKER_MENORY=1G

#export SPARK_WORKER_CORES=1

export SPARK_MASTER_WEBUI_PORT=8089 #spark网页端的端口

3)输入vi workers在配置文件中删除localhost并添加以下内容:

slave1

slave2

7.配置环境变量

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/

bin:$SCALA_HOME/bin:$SPARK_HOME/bin #根据自身的环境变量来配置

export SPARK_HOME=/usr/local/spark #根据自身的spark安装路径来配置

8. 创建spark-logs目录(需要启动Hadoop集群)

hdfs dfs -mkdir /spark-logs

9.将主节点的spark的安装包跟环境变量分发到子节点,输入以下命令:

scp -r /usr/local/spark/ slave1:/usr/local/ #分发spark安装包

scp -r /usr/local/spark/ slave2:/usr/local/

scp /etc/profile slave1:/etc #分发环境变量

scp /etc/profile slave2:/etc

10. 在每个节点上输入以下命令,使环境变量生效:

source /etc/profile

11.进入到spark安装包中的sbin目录下

cd /usr/local/spark/sbin/

12.输入以下命令启动spark集群(需要启动Hadoop集群):

./start-all.sh

./start-history-server.sh

13.使用jps查看节点数

总结

以上就是spark的安装步骤,本文仅仅简单介绍了spark的安装,前提条件是Hadoop完全分布式部署要去上一篇文章查看,欢迎交流。

推荐阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: