Index of /dist/hadoop/commonhttps://archive.apache.org/dist/hadoop/common

 集群规划:

注意:

NameNode和SecondaryNameNode不要安装在同一台服务器ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。

机器ip分配节点node01192.168.56.201NameNode、DataNode、NodeManagernode02192.168.56.202ResourceManager、DataNode、NodeManagernode03192.168.56.203SecondaryNameNode、DataNode、NodeManager

1、解压到linux,配置环境变量在/etc/profile.d/hadoop_env.sh

#!/bin/bash

export JAVA_HOME=/data/soft/jdk1.8.0_201

export HADOOP_HOME=/data/soft/hadoop-3.3.5

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2、cd /data/soft/hadoop-3.3.5/etc/hadoop

[root@local-node01 hadoop]# cd /data/soft/hadoop-3.3.5/etc/hadoop/

[root@local-node01 hadoop]# ll

total 176

-rw-r--r-- 1 2002 2002 9213 Mar 15 12:36 capacity-scheduler.xml

-rw-r--r-- 1 2002 2002 1335 Mar 15 12:38 configuration.xsl

-rw-r--r-- 1 2002 2002 2567 Mar 15 12:36 container-executor.cfg

-rw-r--r-- 1 2002 2002 774 Mar 15 11:57 core-site.xml

-rw-r--r-- 1 2002 2002 3999 Mar 15 11:57 hadoop-env.cmd

-rw-r--r-- 1 2002 2002 16803 Apr 4 20:27 hadoop-env.sh

-rw-r--r-- 1 2002 2002 3321 Mar 15 11:57 hadoop-metrics2.properties

-rw-r--r-- 1 2002 2002 11765 Mar 15 11:57 hadoop-policy.xml

-rw-r--r-- 1 2002 2002 3414 Mar 15 11:57 hadoop-user-functions.sh.example

-rw-r--r-- 1 2002 2002 683 Mar 15 12:07 hdfs-rbf-site.xml

-rw-r--r-- 1 2002 2002 775 Mar 15 12:02 hdfs-site.xml

-rw-r--r-- 1 2002 2002 1484 Mar 15 12:06 httpfs-env.sh

-rw-r--r-- 1 2002 2002 1657 Mar 15 12:06 httpfs-log4j.properties

-rw-r--r-- 1 2002 2002 620 Mar 15 12:06 httpfs-site.xml

-rw-r--r-- 1 2002 2002 3518 Mar 15 11:58 kms-acls.xml

-rw-r--r-- 1 2002 2002 1351 Mar 15 11:58 kms-env.sh

-rw-r--r-- 1 2002 2002 1860 Mar 15 11:58 kms-log4j.properties

-rw-r--r-- 1 2002 2002 682 Mar 15 11:58 kms-site.xml

-rw-r--r-- 1 2002 2002 13700 Mar 15 11:57 log4j.properties

-rw-r--r-- 1 2002 2002 951 Mar 15 12:38 mapred-env.cmd

-rw-r--r-- 1 2002 2002 1764 Mar 15 12:38 mapred-env.sh

-rw-r--r-- 1 2002 2002 4113 Mar 15 12:38 mapred-queues.xml.template

-rw-r--r-- 1 2002 2002 758 Mar 15 12:38 mapred-site.xml

drwxr-xr-x 2 2002 2002 24 Mar 15 11:57 shellprofile.d

-rw-r--r-- 1 2002 2002 2316 Mar 15 11:57 ssl-client.xml.example

-rw-r--r-- 1 2002 2002 2697 Mar 15 11:57 ssl-server.xml.example

-rw-r--r-- 1 2002 2002 2681 Mar 15 12:02 user_ec_policies.xml.template

-rw-r--r-- 1 2002 2002 10 Mar 15 11:57 workers

-rw-r--r-- 1 2002 2002 2250 Mar 15 12:36 yarn-env.cmd

-rw-r--r-- 1 2002 2002 6329 Mar 15 12:36 yarn-env.sh

-rw-r--r-- 1 2002 2002 2591 Mar 15 12:36 yarnservice-log4j.properties

-rw-r--r-- 1 2002 2002 690 Mar 15 12:36 yarn-site.xml

 3、修改其中的一些文件

 (1)hadoop-env.sh,修改JAVA_HOME为具体的路径

export JAVA_HOME=/data/soft/jdk1.8.0_201

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

  (2)core-site.xml

fs.defaultFS

hdfs://node01:9000

hadoop.tmp.dir

/data/soft/hadoop-3.3.5/datas

hadoop.http.staticuser.user

root

hadoop.proxyuser.root.hosts

*

hadoop.proxyuser.root.groups

*

fs.trash.interval

1440

(3)hdfs-site.xml

dfs.namenode.http-address

node01:9870

dfs.namenode.secondary.http-address

node03:9868

dfs.replication

3

dfs.permissions.enabled

false

(4)mapred-site.xml

mapreduce.framework.name

yarn

yarn.app.mapreduce.am.env

HADOOP_MAPRED_HOME=${HADOOP_HOME}

mapreduce.map.env

HADOOP_MAPRED_HOME=${HADOOP_HOME}

mapreduce.reduce.env

HADOOP_MAPRED_HOME=${HADOOP_HOME}

mapreduce.jobhistory.address

node01:10020

mapreduce.jobhistory.webapp.address

node01:19888

 (5)yarn-site.xml

yarn.resourcemanager.hostname

node02

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.nodemanager.pmem-check-enabled

false

yarn.nodemanager.vmem-check-enabled

false

yarn.log-aggregation-enable

true

yarn.nodemanager.remote-app-log-dir

/data/soft/hadoop-3.3.5/nodemanager-remote-app-logs

yarn.log-aggregation.retain-seconds

604800

yarn.nodemanager.log-dirs

file:///data/soft/hadoop-3.3.5/nodemanager-logs

yarn.nodemanager.delete.debug-delay-sec

604800

yarn.log.server.url

http://node01:19888/jobhistory/logs

(6)配置workers

node01

node02

node03

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

4 、启动集群

(1)如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。)

hdfs namenode -format

(2)启动HDFS

start-dfs.sh

Hadoop集群启动关闭-手动逐个进程启停 

每台机器上每次手动启动关闭一个角色进程

HDFS集群

hdfs --daemon start namenode|datanode|secondarynamenode

hdfs --daemon stop namenode|datanode|secondarynamenode

YARN集群

yarn --daemon start resourcemanager|nodemanager

yarn --daemon stop resourcemanager|nodemanager

启动界面

http://192.168.56.201:9870/

 

 

修改hdfs的web端口和yarn的web端口的配置

hdfs-site.xml配置http:

dfs.http.address

node01:9870

 yarn-site.yml配置如下:

yarn.resourcemanager.webapp.address

node02:8088

配置历史服务器

为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:

(1)配置mapred-site.xml

增加如下配置:

mapreduce.jobhistory.address

node01:10020

mapreduce.jobhistory.webapp.address

node01:19888

分发配置文件到所有的主机!!!

mapred --daemon start historyserver

hadoop jar /data/soft/hadoop-3.3.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /words.txt /out

 

 配置日志的聚集

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer。

开启日志聚集功能具体步骤如下:

(1)配置yarn-site.xml

yarn.log-aggregation-enable

true

yarn.log.server.url

http://node01:19888/jobhistory/logs

yarn.nodemanager.remote-app-log-dir

/data/soft/hadoop-3.3.5/nodemanager-remote-app-logs

yarn.log-aggregation.retain-seconds

604800

yarn.nodemanager.log-dirs

file:///data/soft/hadoop-3.3.5/nodemanager-logs

yarn.nodemanager.delete.debug-delay-sec

604800

分发配置文件到所有的主机!!!

先关闭NodeManager 、ResourceManager和HistoryServer

然后重启NodeManager 、ResourceManage和HistoryServer

相关文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: