文章目录
前言一、前提条件二、spark的安装部署1.找到自己所需的安装包(这里用的是华为镜像云的tgz安装包)2.将下载后的安装包解压到自己的软件目录下:3.将spark-3.1.1-bin-hadoop3.2文件夹改为spark4.进入到spark中的conf目录下5.生成三个需要修改的配置文件(将文件夹的.template去掉)6.依次修改上述的三个配置文件1)输入vi spark-defaults.conf并在文件中添加以下内容:2)输入vi spark-env.sh在配置文件中添加以下内容:3)输入vi workers在配置文件中删除localhost并添加以下内容:
7.配置环境变量8. 创建spark-logs目录(需要启动Hadoop集群)9.将主节点的spark的安装包跟环境变量分发到子节点,输入以下命令:10. 在每个节点上输入以下命令,使环境变量生效:11.进入到spark安装包中的sbin目录下12.输入以下命令启动spark集群(需要启动Hadoop集群):13.使用jps查看节点数
总结
前言
本节文章在Hadoop完全分布式的基础下讲解了如何安装spark集群。
提示:以下是本篇文章正文内容,下面案例可供参考
一、前提条件
Hadoop完全分布式部署,在https://blog.csdn.net/weixin_64998435/article/details/130471426?spm=1001.2014.3001.5502中也有写到,仅供参考。
二、spark的安装部署
1.找到自己所需的安装包(这里用的是华为镜像云的tgz安装包)
直接在虚拟机中输入(等他自动下载完即可,要注意的是要跟你的Hadoop集群版本兼容才可以使用):
wget https://repo.huaweicloud.com/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
2.将下载后的安装包解压到自己的软件目录下:
命令如下(解压到local目录下):
tar -zxf spark-3.1.1-bin-hadoop3.2.tgz -C /usr/local/
3.将spark-3.1.1-bin-hadoop3.2文件夹改为spark
mv spark-3.1.1-bin-hadoop3.2.tgz spark/
4.进入到spark中的conf目录下
cd /usr/local/spark/ #结合自己的虚拟机路径
5.生成三个需要修改的配置文件(将文件夹的.template去掉)
cp spark-defaults.conf.template spark-defaults.conf
cp spark-env.sh.template spark-env.sh
cp workers.template workers
6.依次修改上述的三个配置文件
1)输入vi spark-defaults.conf并在文件中添加以下内容:
spark.master spark://master:7077
spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:8020/spark-logs
spark.history.fs.logDirectory hdfs://master:8020/spark-logs
2)输入vi spark-env.sh在配置文件中添加以下内容:
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop #Hadoop的配置文件路径,根据自身配置进行修改
export JAVA_HOME=/usr/local/java #jdk的安装路径
export HADOOP_HOME=/usr/local/hadoop #Hadoop的安装路径
export SPARK_MASTER_HOST=master #spark的主机名
export SPARK_MASTER_PORT=7077 #spark的主机的端口
#export SPARK_WORKER_MENORY=1G
#export SPARK_WORKER_CORES=1
export SPARK_MASTER_WEBUI_PORT=8089 #spark网页端的端口
3)输入vi workers在配置文件中删除localhost并添加以下内容:
slave1
slave2
7.配置环境变量
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/
bin:$SCALA_HOME/bin:$SPARK_HOME/bin #根据自身的环境变量来配置
export SPARK_HOME=/usr/local/spark #根据自身的spark安装路径来配置
8. 创建spark-logs目录(需要启动Hadoop集群)
hdfs dfs -mkdir /spark-logs
9.将主节点的spark的安装包跟环境变量分发到子节点,输入以下命令:
scp -r /usr/local/spark/ slave1:/usr/local/ #分发spark安装包
scp -r /usr/local/spark/ slave2:/usr/local/
scp /etc/profile slave1:/etc #分发环境变量
scp /etc/profile slave2:/etc
10. 在每个节点上输入以下命令,使环境变量生效:
source /etc/profile
11.进入到spark安装包中的sbin目录下
cd /usr/local/spark/sbin/
12.输入以下命令启动spark集群(需要启动Hadoop集群):
./start-all.sh
./start-history-server.sh
13.使用jps查看节点数
总结
以上就是spark的安装步骤,本文仅仅简单介绍了spark的安装,前提条件是Hadoop完全分布式部署要去上一篇文章查看,欢迎交流。
推荐阅读
发表评论