大数据集群:hadoop3.3.6,spark,hbase,zookeeper

区块链技术通俗讲解数据库 2024-04-20 5 0

最近工作需要使用大数据集群，所有搭建了一套大数据集群：hadoop3.3.6，spark-3.3.3-bin-hadoop3，hbase-2.5.5-hadoop3-bin，apache-zookeeper-3.7.1-bin.tar.gz和mongo集群，下面详细编写步骤：

准备三台阿里云服务器

设置修改hosts

# 所有节点都修改 hosts

vim /etc/hosts

192.168.1.117 node0

192.168.1.118 node1

192.168.1.120 node2

1、安装jdk

下载Linux版本jdk

tar -zxvf jdk-8u351-linux-x64.tar.gz -C /usr/local

vim /etc/profile

export JAVA_HOME=/usr/local/jdk1.8.0_351

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tool.jar

wq!

source /etc/profile

java -version

出现下面情况就是安装好Java环境

2、安装scala

下载scala

tar -zxvf scala-2.13.10.tgz -C /usr/local

export SCALA_HOME=/usr/local/scala-2.13.10

export PATH=$SCALA_HOME/bin:$PATH

wq!

source /etc/profile

scala

3、新建用户

user add hadoop passwd hadoop

4、切换到hadoop用户，配置免密

每台机器：（1）ssh-keygen 然后四个回车（2）ssh-copy-id 复制到另外2台

5、安装hadoop

NameNode 和 SecondaryNameNode 不要安装在同一台服务器 ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在同一台机器上。

hadoop解压到 /data/hadoop-3.3.6 配置：修改 /data/hadoop-3.3.6/etc/hadoop 目录中的几个配置文件 hadoop-env.sh、yarn-env.sh文件改动一处，设置JAVA_HOME路径

export JAVA_HOME=/usr/local/jdk1.8.0_351

core-site.xml 文件

fs.defaultFS

hdfs://node0:9000

hadoop.tmp.dir

/data/hadoop-3.3.6/data

hdfs-site.xml文件

dfs.namenode.http-address

node0:9870

dfs.namenode.secondary.http-address

node2:9868

mapred-site.xml文件

mapreduce.framework.name

yarn

mapreduce.jobhistory.address

node0:10020

mapreduce.jobhistory.webapp.address

node2:19888

yarn-site.xml文件

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.resourcemanager.hostname

gis192

yarn.nodemanager.env-whitelist

JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

yarn.log-aggregation-enable

true

yarn.log.server.url

http://node0:19888/jobhistory/logs

yarn.log-aggregation.retain-seconds

604800

workers

node0

node1

node2

配置环境变量

vim /etc/profile

export HADOOP_HOME=/data/app/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

:wq!

source /etc/profile

向各节点拷贝配置好的hadoop 使用scp命令拷贝即可 scp –r /data/hadoop-3.3.6 hadoop@node1:/data scp –r /data/hadoop-3.3.6 hadoop@node2:/data 初始化HDFS文件系统

hdfs namenode -format

启动HDFS、YARN

# 全部启动

./start-all.sh

Web 端查看 HDFS 的 NameNode （a）浏览器中输入：http://node0:9870

（b）查看 HDFS 上存储的数据信息（5）Web 端查看 YARN 的 ResourceManager （a）浏览器中输入：http://node1:8088 （b）查看 YARN 上运行的 Job 信息

6、安装zookeeper集群

下载linux版本3.7.1

tar -zxvf apache-zookeeper-3.7.1-bin.tar.gz -C /data/

mv apache-zookeeper-3.7.1-bin ./zookeeper

cd /data/zookeeper/conf

cp zoo_sample.cfg zoo.cfg

//修改 zoo.cfg 配置文件，将 dataDir=/data/zookeeper/data 修改为指定的data目录

vim zoo.cfg

dataDir=/data/zookeeper/data

server.5=node0:2888:3888

server.6=node1:2888:3888

server.7=node2:2888:3888

scp /data/zookeeper hadoop@node1:/data/

scp /data/zookeeper hadoop@node2:/data/

cd /data/zookeeper/data

vim myid

myid 为 5,6,7

启动

bin/zkServer.sh start

查看状态

bin/zkServer.sh status

bin/zkCli.sh

7、spark 配置

下载spark

tar -zxvf spark-3.3.3-bin-hadoop3.tgz -C /data/

配置 /data/spark-3.3.3-bin-hadoop3/conf目录下 spark-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_351

export SCALA_HOME=/usr/local/scala-2.13.10

export SPARK_MASTER_HOST=node0

export SPARK_MASTER_PORT=7077

export HADOOP_CONF_DIR=/data/hadoop-3.3.6/etc/hadoop

works

node0

node1

node2

spark-defaults.conf

spark.master yarn

将项目传送两个节点

scp /data/spark-3.3.1-bin-hadoop2hadoop@node1:/data/

scp /data/spark-3.3.1-bin-hadoop2hadoop@node2:/data/

8、Hbase 配置

下载hbase2.5.5-hadoop3.x

hbase-2.5.5-hadoop3-bin.tar.gz

tar -zxvf hbase-2.5.5-hadoop3-bin.tar.gz -C /data/

修改配置文件 hbase-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_351

export HBASE_MANAGES_ZK=false

export HBASE_LOG_DIR=/data/hbase-2.5.5-hadoop3/logs

regionservers

node0

node1

node2

backup-master

node0

hbase-site.xml

hbase.rootdir

hdfs://node0:9000/hbase

hbase.cluster.distributed

true

hbase.zookeeper.quorum

node0:2181,node1:2181,node2:2181

hbase.tmp.dir

/data/hbase-2.5.5-hadoop3/tmp

dfs.replication

hbase.zoopkeeper.property.dataDir

/data/zookeeper/data

启动

cd /data/hbase-2.5.5-hadoop3-bin

bin/start-hbase.sh

使用shell测试

hbase shell

9、mongo配置

mongodb的集群配置在前几天发布了下面是链接

https://blog.csdn.net/capatical/article/details/134284730

完毕！！！有问题可以评论区讨论

推荐链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

大数据 spark hbase

本文由用户于 2024-04-20 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18727682.html

金钥匙

大数据集群:hadoop3.3.6,spark,hbase,zookeeper

大数据分布式优化大规模数据处理：Hadoop与Spark实践

1024程序员节 spark rdd之groupByKey

发表评论取消回复

金钥匙

大数据集群:hadoop3.3.6,spark,hbase,zookeeper

大数据 分布式 优化大规模数据处理：Hadoop与Spark实践

1024程序员节 spark rdd之groupByKey

相关文章

发表评论取消回复

大数据分布式优化大规模数据处理：Hadoop与Spark实践