大数据 Spark集群3.1.1完全分布式搭建

大数据分析框架6 数据库 2024-03-27 5 0

文章目录

前言一、前提条件二、spark的安装部署1.找到自己所需的安装包（这里用的是华为镜像云的tgz安装包）2.将下载后的安装包解压到自己的软件目录下：3.将spark-3.1.1-bin-hadoop3.2文件夹改为spark4.进入到spark中的conf目录下5.生成三个需要修改的配置文件（将文件夹的.template去掉）6.依次修改上述的三个配置文件1）输入vi spark-defaults.conf并在文件中添加以下内容：2）输入vi spark-env.sh在配置文件中添加以下内容:3）输入vi workers在配置文件中删除localhost并添加以下内容：

7.配置环境变量8. 创建spark-logs目录（需要启动Hadoop集群）9.将主节点的spark的安装包跟环境变量分发到子节点，输入以下命令:10. 在每个节点上输入以下命令，使环境变量生效：11.进入到spark安装包中的sbin目录下12.输入以下命令启动spark集群（需要启动Hadoop集群）：13.使用jps查看节点数

总结

前言

本节文章在Hadoop完全分布式的基础下讲解了如何安装spark集群。

提示：以下是本篇文章正文内容，下面案例可供参考

一、前提条件

Hadoop完全分布式部署，在https://blog.csdn.net/weixin_64998435/article/details/130471426?spm=1001.2014.3001.5502中也有写到，仅供参考。

二、spark的安装部署

1.找到自己所需的安装包（这里用的是华为镜像云的tgz安装包）

直接在虚拟机中输入（等他自动下载完即可，要注意的是要跟你的Hadoop集群版本兼容才可以使用）：

wget https://repo.huaweicloud.com/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

2.将下载后的安装包解压到自己的软件目录下：

命令如下（解压到local目录下）：

tar -zxf spark-3.1.1-bin-hadoop3.2.tgz -C /usr/local/

3.将spark-3.1.1-bin-hadoop3.2文件夹改为spark

mv spark-3.1.1-bin-hadoop3.2.tgz spark/

4.进入到spark中的conf目录下

cd /usr/local/spark/ #结合自己的虚拟机路径

5.生成三个需要修改的配置文件（将文件夹的.template去掉）

cp spark-defaults.conf.template spark-defaults.conf

cp spark-env.sh.template spark-env.sh

cp workers.template workers

6.依次修改上述的三个配置文件

1）输入vi spark-defaults.conf并在文件中添加以下内容：

spark.master spark://master:7077

spark.eventLog.enabled true

spark.eventLog.dir hdfs://master:8020/spark-logs

spark.history.fs.logDirectory hdfs://master:8020/spark-logs

2）输入vi spark-env.sh在配置文件中添加以下内容:

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop #Hadoop的配置文件路径，根据自身配置进行修改

export JAVA_HOME=/usr/local/java #jdk的安装路径

export HADOOP_HOME=/usr/local/hadoop #Hadoop的安装路径

export SPARK_MASTER_HOST=master #spark的主机名

export SPARK_MASTER_PORT=7077 #spark的主机的端口

#export SPARK_WORKER_MENORY=1G

#export SPARK_WORKER_CORES=1

export SPARK_MASTER_WEBUI_PORT=8089 #spark网页端的端口

3）输入vi workers在配置文件中删除localhost并添加以下内容：

slave1

slave2

7.配置环境变量

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/

bin:$SCALA_HOME/bin:$SPARK_HOME/bin #根据自身的环境变量来配置

export SPARK_HOME=/usr/local/spark #根据自身的spark安装路径来配置

8. 创建spark-logs目录（需要启动Hadoop集群）

hdfs dfs -mkdir /spark-logs

9.将主节点的spark的安装包跟环境变量分发到子节点，输入以下命令:

scp -r /usr/local/spark/ slave1:/usr/local/ #分发spark安装包

scp -r /usr/local/spark/ slave2:/usr/local/

scp /etc/profile slave1:/etc #分发环境变量

scp /etc/profile slave2:/etc

10. 在每个节点上输入以下命令，使环境变量生效：

source /etc/profile

11.进入到spark安装包中的sbin目录下

cd /usr/local/spark/sbin/

12.输入以下命令启动spark集群（需要启动Hadoop集群）：

./start-all.sh

./start-history-server.sh

13.使用jps查看节点数

总结

以上就是spark的安装步骤，本文仅仅简单介绍了spark的安装，前提条件是Hadoop完全分布式部署要去上一篇文章查看，欢迎交流。

金钥匙

大数据 Spark集群3.1.1完全分布式搭建

大数据 Hadoop运行环境搭建

大数据 hadoop Spark的基本概念与架构

发表评论取消回复

金钥匙

大数据 Spark集群3.1.1完全分布式搭建

大数据 Hadoop运行环境搭建

大数据 hadoop Spark的基本概念与架构

相关文章

发表评论取消回复