柚子快报邀请码778899分享:大数据 spark 作业4

http://yzkb.51969.com/

1.4.1.

实验任务一:配置

Linux

系统基础环境

1.4.1.1.

步骤一:查看服务器的

IP

地址

查看服务器的

IP

地址

[root@localhost ~]#

ip add show

1.4.1.2. 步骤二:设置服务器的主机名称

1.4.1.3.

步骤三:绑定主机名与

IP

地址

1.4.1.4.

步骤四:查看

SSH

服务状态

SSH

Secure Shell

的缩写,是专为远程登录会话和其他网络服务提供安全性的协议。一般的用法是在本地计算机安装 SSH

客服端,在服务器端安装

SSH

服务,然后本地计算机利用 SSH

协议远程登录服务器,对服务器进行管理。这样可以非常方便地对多台服务器进行管理。同时在 Hadoop

分布式环境下,集群中的各个节点之间(节点可以看作是一台主机)需要使用 SSH

协议进行通信。因此

Linux

系统必须安装并启用

SSH

服务。

CentOS 7

默认安装

SSH

服务,可以使用如下命令查看

SSH

的状态。

1.4.1.5.

步骤五:关闭防火墙

Hadoop

可以使用

Web

页面进行管理,但需要关闭防火墙,否则打不开

Web

页面。

同时不关闭防火墙也会造成

Hadoop

后台运行脚本出现莫名其妙的错误。关闭命令如下:

看到

inactive (dead)

就表示防火墙已经关闭。不过这样设置后,

Linux

系统如果重启,防火墙仍然会重新启动。执行如下命令可以永久关闭防火墙。

1.4.1.6.

步骤六:创建 hadoop 用户

1.4.2.

实验任务二:安装

JAVA

环境

1.4.2.1.

步骤一:下载 JDK 安装包

JDK 安 装 包 需 要 在 Oracle 官 网 下 载 , 下 载 地 址 为 :https://www.oracle.com/java/technologies /javase-jdk8-downloads.html,本教材采用的 Hadoop 2.7.1

所需要的

JDK

版本为

JDK7

以上,这里采用的安装包为

jdk-8u152-linux x64.tar.gz。

1.4.2.2.

步骤二:卸载自带

OpenJDK

查看删除结果再次键入命令 java -version 出现以下结果表示删除功

1.4.2.3.

步骤三:安装

JDK

Hadoop 2.7.1

要求

JDK

的版本为

1.7

以上,这里安装的是

JDK1.8

版 (即JAVA 8

)。

安装命令如下,将安装包解压到

/usr/local/src

目录下 ,注意

/opt/software

目录 下的软件包事先准备好。

1.4.2.4.

步骤四:设置

JAVA

环境变量

Linux 中设置环境变量的方法比较多,较常见的有两种:一是配置 /etc/profile 文件,配置结果对整个系统有效,系统所有用户都可以使用;二是配置~/.bashrc 文件,配置结果仅对当前用户有效。这里使用第一种方法。

2.4.1.

实验任务一:获取

Hadoop

安装包

Apache Hadoop 各 个 版 本 的 下 载 网 址 :

https://archive.apache.org/dist/hadoop /common/

。本教材选用的是

Hadoop 2.7.1 版本,安装包为

hadoop-2.7.1.tar.gz

。需要先下载

Hadoop

安装包,再上传到 Linux 系统的

/opt/software

目录。具体的方法见前一节

实验一

Linux

操作系统环境 设置”

,这里就不再赘述。

2.4.2.

实验任务二:安装

Hadoop

软件

2.4.2.1.

步骤一:安装

Hadoop

软件

安装命令如下,将安装包解压到/usr/local/src/目录下

2.4.2.2.

步骤二:配置

Hadoop

环境变量

和设置

JAVA

环境变量类似,修改/etc/profile 文件。

2.4.2.3.

步骤三:修改目录所有者和所有者组

上述安装完成的

Hadoop

软件只能让

root

用户使用,要让

hadoop

用户能够 运行 Hadoop

软件,需要将目录

/usr/local/src

的所有者改为

hadoop

用户。

3.4.1.

实验任务一:配置

Hadoop

配置文件

3.4.2.

实验任务二:测试

Hadoop

本地模式的运行

3.4.2.1.

步骤一

:

切换到

hadoop

用户

使用

hadoop

这个用户来运行

Hadoop

软件。

3.4.2.2.

步骤二

:

创建输入数据存放目录

将输入数据存放在

~/input

目录(

hadoop

用户主目录下的 input 目录中)。

3.4.2.3.

步骤三

:

创建数据输入文件

创建数据文件

data.txt

,将要测试的数据内容输入到

data.txt

文件中。

3.4.2.4.

步骤四

:

测试 MapReduce 运行

1.4.1. 实验任务一:实验环境下集群网络配置

2.4.1.1.

步骤一:每个节点安装和启动 SSH 协议

2.4.1.2. 步骤二:切换到 hadoop 用户

2.4.1.3. 步骤三:每个节点生成秘钥对

2.4.1.4.

步骤四:查看

"/home/hadoop/"

下是否有

".ssh"

文件夹,且

".ssh"

文件下是否

两个刚生产的无密码密钥对。

2.4.1.5.

步骤五:将 id_rsa.pub 追加到授权 key 文件中

2.4.1.6.

步骤六:修改文件

"authorized_keys"

权限

通过

ll

命令查看,可以看到修改后

authorized_keys

文件的权限为

“rw-------”

,表示所有者可读写,其他用户没有访问权限。如果该文件权限太大,ssh

服务会拒绝工作,出现无法通过密钥文件进行登录认证的情况。

2.4.1.7.

步骤七:配置

SSH

服务

31

使用

root

用户登录,修改

SSH

配置文件

"/etc/ssh/sshd_config"

的下列内容,需要将该配置字段前面的#

号删除,启用公钥私钥配对认证方式。

2.4.1.8.

步骤八:重启

SSH

服务

设置完后需要重启 SSH 服务,才能使配置生效。

2.4.1.9. 步骤九:切换到 hadoop 用户

2.4.1.10.

步骤十:验证

SSH

登录本机

hadoop

用户下验证能否嵌套登录本机,若可以不输入密码登录,则本机通过密钥登录认证成功。

2.4.2.

实验任务二:交换

SSH

密钥

2.4.2.1.

步骤一:将

Master

节点的公钥

id_rsa.pub

复制到每个 Slave 点

2.4.2.2.

步骤二:在每个

Slave

节点把

Master

节点复制的公钥复制到

authorized_keys

文件 hadoop 用户登录

slave1

和 slave2 节点,执行命令。

2.4.2.3.

步骤三:在每个

Slave

节点删除 id_rsa.pub 文件

2.4.2.4.

步骤四:将每个

Slave 节点的公钥保存到 Master

2.4.3.

实验任务三:验证

SSH

无密码登录

2.4.3.1.

步骤一:查看

Master

节点 authorized_keys 文件

2.4.3.2.

步骤二:查看

Slave

节点 authorized_keys 文件

2.4.3.3.

步骤三:验证

Master

到每个

Slave

节点无密码登录

hadoop

用户登录

master

节点,执行

SSH

命令登录

slave1

slave2

节点。可以观察

到不需要输入密码即可实现 SSH 登录。

2.4.3.4.

步骤四:验证两个

Slave

节点到 Master 节点无密码登录

2.4.3.

5. 步骤五:配置两个子节点slave1、slave2的JDK环境。

1.4.

实验过程

1.4.1.

实验任务一:在

Master

节点上安装

Hadoop

1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop

2. 配置 Hadoop 环境变量

3. 使配置的 Hadoop 的环境变量生效

4. 执行以下命令修改 hadoop-env.sh 配置文件

任务二,三,四,五:配置文件参数

任务六:Hadoop 其他相关配置

slave1

slave2

2、大数据平台集群运行

1.

实验一:

hadoop 集群运行

1.4.

实验过程

1.4.1.

实验任务一:配置

Hadoop

格式化

1.4.1.1.

步骤一:

NameNode

格式化

NameNode

上的数据清零,第一次启动

HDFS

时要进行格式化,以后启动无

需再格式化,否则会缺失

DataNode

进程。另外,只要运行过

HDFS

Hadoop

工作目录(本书设置为

/usr/local/src/hadoop/tmp

)就会有数据,如果需要重

新格式化,则在格式化之前一定要先删除工作目录下的数据,否则格式化时会

出问题。

执行如下命令,格式化 NameNode

1.4.1.2.

步骤二:启动

NameNode

执行如下命令,启动 NameNode:

1.4.2.

实验任务二:查看

Java

进程

启动完成后,可以使用

JPS

命令查看是否成功。

JPS

命令是

Java

提供的一个显示当前所有

Java

进程 pid 的命令。

1.4.2.1.

步骤一:

slave

节点 启动 DataNode

1.4.2.2.

步骤二:启动

SecondaryNameNode

执行如下命令,启动 SecondaryNameNode:

1.4.2.3.

步骤三:查看 HDFS 数据存放位置:

1.4.3.

实验任务三:查看 HDFS 的报告

1.4.4.

实验任务四:使用浏览器查看节点状态

在浏览器的地址栏输入

http://master:50070

,进入页面可以查看

NameNode

DataNode

信息,如图 5-2 所示。

1.4.4.1.

步骤一:在

HDFS

文件系统中创建数据输入目录

确保

dfs

和 yarn 都启动成功

1.4.4.2.

步骤二:将输入数据文件复制到

HDFS

/input

目录中

测试用数据文件仍然是上一节所用的测试数据文件~/input/data.txt,内容如下所示。

1.4.4.3.

步骤三:运行

WordCount

案例,计算数据文件中各单词的频度。

47

48

运行

MapReduce

命令需要指定数据输出目录,该目录为

HDFS

文件系统中的目录,会自

动生成。如果在执行

MapReduce

命令前,该目录已经存在,则执行

MapReduce

命令会出

错。

例如

MapReduce

命令指定数据输出目录为

/output

/output

目录在

HDFS

文件系统中已

经存在,则执行相应的

MapReduce

命令就会出错。所以如果不是第一次运行

MapReduce

,就要先查看

HDFS

中的文件,是否存在

/output

目录。如果已经存在

/output

目录,就要先删除

/output

目录,再执行上述命令。自动创建的

/output

目录在

HDFS

文件

系统中,使用

HDFS 命令查看和操作。

1.4.

实验过程

任务一:下载和解压安装文件

1. 解压安装文件

任务二:设置 Hive 环境

1. 卸载 MariaDB 数据库

2. 安装 MySQL 数据[root@master tools]# cd mysql-5.7.18/

3. 配置 Hive 组件

4. 初始化 hive 元数据

柚子快报邀请码778899分享:大数据 spark 作业4

http://yzkb.51969.com/

精彩链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: