柚子快报邀请码778899分享:大数据 spark 作业4
1.4.1.
实验任务一:配置
Linux
系统基础环境
1.4.1.1.
步骤一:查看服务器的
IP
地址
查看服务器的
IP
地址
[root@localhost ~]#
ip add show
1.4.1.2. 步骤二:设置服务器的主机名称
1.4.1.3.
步骤三:绑定主机名与
IP
地址
1.4.1.4.
步骤四:查看
SSH
服务状态
SSH
为
Secure Shell
的缩写,是专为远程登录会话和其他网络服务提供安全性的协议。一般的用法是在本地计算机安装 SSH
客服端,在服务器端安装
SSH
服务,然后本地计算机利用 SSH
协议远程登录服务器,对服务器进行管理。这样可以非常方便地对多台服务器进行管理。同时在 Hadoop
分布式环境下,集群中的各个节点之间(节点可以看作是一台主机)需要使用 SSH
协议进行通信。因此
Linux
系统必须安装并启用
SSH
服务。
CentOS 7
默认安装
SSH
服务,可以使用如下命令查看
SSH
的状态。
1.4.1.5.
步骤五:关闭防火墙
Hadoop
可以使用
Web
页面进行管理,但需要关闭防火墙,否则打不开
Web
页面。
同时不关闭防火墙也会造成
Hadoop
后台运行脚本出现莫名其妙的错误。关闭命令如下:
看到
inactive (dead)
就表示防火墙已经关闭。不过这样设置后,
Linux
系统如果重启,防火墙仍然会重新启动。执行如下命令可以永久关闭防火墙。
1.4.1.6.
步骤六:创建 hadoop 用户
1.4.2.
实验任务二:安装
JAVA
环境
1.4.2.1.
步骤一:下载 JDK 安装包
JDK 安 装 包 需 要 在 Oracle 官 网 下 载 , 下 载 地 址 为 :https://www.oracle.com/java/technologies /javase-jdk8-downloads.html,本教材采用的 Hadoop 2.7.1
所需要的
JDK
版本为
JDK7
以上,这里采用的安装包为
jdk-8u152-linux x64.tar.gz。
1.4.2.2.
步骤二:卸载自带
OpenJDK
查看删除结果再次键入命令 java -version 出现以下结果表示删除功
1.4.2.3.
步骤三:安装
JDK
Hadoop 2.7.1
要求
JDK
的版本为
1.7
以上,这里安装的是
JDK1.8
版 (即JAVA 8
)。
安装命令如下,将安装包解压到
/usr/local/src
目录下 ,注意
/opt/software
目录 下的软件包事先准备好。
1.4.2.4.
步骤四:设置
JAVA
环境变量
在
Linux 中设置环境变量的方法比较多,较常见的有两种:一是配置 /etc/profile 文件,配置结果对整个系统有效,系统所有用户都可以使用;二是配置~/.bashrc 文件,配置结果仅对当前用户有效。这里使用第一种方法。
2.4.1.
实验任务一:获取
Hadoop
安装包
Apache Hadoop 各 个 版 本 的 下 载 网 址 :
https://archive.apache.org/dist/hadoop /common/
。本教材选用的是
Hadoop 2.7.1 版本,安装包为
hadoop-2.7.1.tar.gz
。需要先下载
Hadoop
安装包,再上传到 Linux 系统的
/opt/software
目录。具体的方法见前一节
“
实验一
Linux
操作系统环境 设置”
,这里就不再赘述。
2.4.2.
实验任务二:安装
Hadoop
软件
2.4.2.1.
步骤一:安装
Hadoop
软件
安装命令如下,将安装包解压到/usr/local/src/目录下
2.4.2.2.
步骤二:配置
Hadoop
环境变量
和设置
JAVA
环境变量类似,修改/etc/profile 文件。
2.4.2.3.
步骤三:修改目录所有者和所有者组
上述安装完成的
Hadoop
软件只能让
root
用户使用,要让
hadoop
用户能够 运行 Hadoop
软件,需要将目录
/usr/local/src
的所有者改为
hadoop
用户。
3.4.1.
实验任务一:配置
Hadoop
配置文件
3.4.2.
实验任务二:测试
Hadoop
本地模式的运行
3.4.2.1.
步骤一
:
切换到
hadoop
用户
使用
hadoop
这个用户来运行
Hadoop
软件。
3.4.2.2.
步骤二
:
创建输入数据存放目录
将输入数据存放在
~/input
目录(
hadoop
用户主目录下的 input 目录中)。
3.4.2.3.
步骤三
:
创建数据输入文件
创建数据文件
data.txt
,将要测试的数据内容输入到
data.txt
文件中。
3.4.2.4.
步骤四
:
测试 MapReduce 运行
1.4.1. 实验任务一:实验环境下集群网络配置
2.4.1.1.
步骤一:每个节点安装和启动 SSH 协议
2.4.1.2. 步骤二:切换到 hadoop 用户
2.4.1.3. 步骤三:每个节点生成秘钥对
2.4.1.4.
步骤四:查看
"/home/hadoop/"
下是否有
".ssh"
文件夹,且
".ssh"
文件下是否
有
两个刚生产的无密码密钥对。
2.4.1.5.
步骤五:将 id_rsa.pub 追加到授权 key 文件中
2.4.1.6.
步骤六:修改文件
"authorized_keys"
权限
通过
ll
命令查看,可以看到修改后
authorized_keys
文件的权限为
“rw-------”
,表示所有者可读写,其他用户没有访问权限。如果该文件权限太大,ssh
服务会拒绝工作,出现无法通过密钥文件进行登录认证的情况。
2.4.1.7.
步骤七:配置
SSH
服务
31
使用
root
用户登录,修改
SSH
配置文件
"/etc/ssh/sshd_config"
的下列内容,需要将该配置字段前面的#
号删除,启用公钥私钥配对认证方式。
2.4.1.8.
步骤八:重启
SSH
服务
设置完后需要重启 SSH 服务,才能使配置生效。
2.4.1.9. 步骤九:切换到 hadoop 用户
2.4.1.10.
步骤十:验证
SSH
登录本机
在
hadoop
用户下验证能否嵌套登录本机,若可以不输入密码登录,则本机通过密钥登录认证成功。
2.4.2.
实验任务二:交换
SSH
密钥
2.4.2.1.
步骤一:将
Master
节点的公钥
id_rsa.pub
复制到每个 Slave 点
2.4.2.2.
步骤二:在每个
Slave
节点把
Master
节点复制的公钥复制到
authorized_keys
文件 hadoop 用户登录
slave1
和 slave2 节点,执行命令。
2.4.2.3.
步骤三:在每个
Slave
节点删除 id_rsa.pub 文件
2.4.2.4.
步骤四:将每个
Slave 节点的公钥保存到 Master
2.4.3.
实验任务三:验证
SSH
无密码登录
2.4.3.1.
步骤一:查看
Master
节点 authorized_keys 文件
2.4.3.2.
步骤二:查看
Slave
节点 authorized_keys 文件
2.4.3.3.
步骤三:验证
Master
到每个
Slave
节点无密码登录
hadoop
用户登录
master
节点,执行
SSH
命令登录
slave1
和
slave2
节点。可以观察
到不需要输入密码即可实现 SSH 登录。
2.4.3.4.
步骤四:验证两个
Slave
节点到 Master 节点无密码登录
2.4.3.
5. 步骤五:配置两个子节点slave1、slave2的JDK环境。
1.4.
实验过程
1.4.1.
实验任务一:在
Master
节点上安装
Hadoop
1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop
2. 配置 Hadoop 环境变量
3. 使配置的 Hadoop 的环境变量生效
4. 执行以下命令修改 hadoop-env.sh 配置文件
任务二,三,四,五:配置文件参数
任务六:Hadoop 其他相关配置
slave1
slave2
2、大数据平台集群运行
1.
实验一:
hadoop 集群运行
1.4.
实验过程
1.4.1.
实验任务一:配置
Hadoop
格式化
1.4.1.1.
步骤一:
NameNode
格式化
将
NameNode
上的数据清零,第一次启动
HDFS
时要进行格式化,以后启动无
需再格式化,否则会缺失
DataNode
进程。另外,只要运行过
HDFS
,
Hadoop
的
工作目录(本书设置为
/usr/local/src/hadoop/tmp
)就会有数据,如果需要重
新格式化,则在格式化之前一定要先删除工作目录下的数据,否则格式化时会
出问题。
执行如下命令,格式化 NameNode
1.4.1.2.
步骤二:启动
NameNode
执行如下命令,启动 NameNode:
1.4.2.
实验任务二:查看
Java
进程
启动完成后,可以使用
JPS
命令查看是否成功。
JPS
命令是
Java
提供的一个显示当前所有
Java
进程 pid 的命令。
1.4.2.1.
步骤一:
slave
节点 启动 DataNode
1.4.2.2.
步骤二:启动
SecondaryNameNode
执行如下命令,启动 SecondaryNameNode:
1.4.2.3.
步骤三:查看 HDFS 数据存放位置:
1.4.3.
实验任务三:查看 HDFS 的报告
1.4.4.
实验任务四:使用浏览器查看节点状态
在浏览器的地址栏输入
http://master:50070
,进入页面可以查看
NameNode
和
DataNode
信息,如图 5-2 所示。
1.4.4.1.
步骤一:在
HDFS
文件系统中创建数据输入目录
确保
dfs
和 yarn 都启动成功
1.4.4.2.
步骤二:将输入数据文件复制到
HDFS
的
/input
目录中
测试用数据文件仍然是上一节所用的测试数据文件~/input/data.txt,内容如下所示。
1.4.4.3.
步骤三:运行
WordCount
案例,计算数据文件中各单词的频度。
47
48
运行
MapReduce
命令需要指定数据输出目录,该目录为
HDFS
文件系统中的目录,会自
动生成。如果在执行
MapReduce
命令前,该目录已经存在,则执行
MapReduce
命令会出
错。
例如
MapReduce
命令指定数据输出目录为
/output
,
/output
目录在
HDFS
文件系统中已
经存在,则执行相应的
MapReduce
命令就会出错。所以如果不是第一次运行
MapReduce
,就要先查看
HDFS
中的文件,是否存在
/output
目录。如果已经存在
/output
目录,就要先删除
/output
目录,再执行上述命令。自动创建的
/output
目录在
HDFS
文件
系统中,使用
HDFS 命令查看和操作。
1.4.
实验过程
任务一:下载和解压安装文件
1. 解压安装文件
任务二:设置 Hive 环境
1. 卸载 MariaDB 数据库
2. 安装 MySQL 数据[root@master tools]# cd mysql-5.7.18/
3. 配置 Hive 组件
4. 初始化 hive 元数据
柚子快报邀请码778899分享:大数据 spark 作业4
精彩链接
发表评论