柚子快报邀请码778899分享：大数据 spark 作业4

http://yzkb.51969.com/

1.4.1.

实验任务一：配置

Linux

系统基础环境

1.4.1.1.

步骤一：查看服务器的

地址

查看服务器的

地址

[root@localhost ~]#

ip add show

1.4.1.2. 步骤二：设置服务器的主机名称

1.4.1.3.

步骤三：绑定主机名与

地址

1.4.1.4.

步骤四：查看

SSH

服务状态

SSH

为

Secure Shell

的缩写，是专为远程登录会话和其他网络服务提供安全性的协议。一般的用法是在本地计算机安装 SSH

客服端，在服务器端安装

SSH

服务，然后本地计算机利用 SSH

协议远程登录服务器，对服务器进行管理。这样可以非常方便地对多台服务器进行管理。同时在 Hadoop

分布式环境下，集群中的各个节点之间（节点可以看作是一台主机）需要使用 SSH

协议进行通信。因此

Linux

系统必须安装并启用

SSH

服务。

CentOS 7

默认安装

SSH

服务，可以使用如下命令查看

SSH

的状态。

1.4.1.5.

步骤五：关闭防火墙

Hadoop

可以使用

Web

页面进行管理，但需要关闭防火墙，否则打不开

Web

页面。

同时不关闭防火墙也会造成

Hadoop

后台运行脚本出现莫名其妙的错误。关闭命令如下：

看到

inactive (dead)

就表示防火墙已经关闭。不过这样设置后，

Linux

系统如果重启，防火墙仍然会重新启动。执行如下命令可以永久关闭防火墙。

1.4.1.6.

步骤六：创建 hadoop 用户

1.4.2.

实验任务二：安装

JAVA

环境

1.4.2.1.

步骤一：下载 JDK 安装包

JDK 安装包需要在 Oracle 官网下载，下载地址为：https://www.oracle.com/java/technologies /javase-jdk8-downloads.html，本教材采用的 Hadoop 2.7.1

所需要的

JDK

版本为

JDK7

以上，这里采用的安装包为

jdk-8u152-linux x64.tar.gz。

1.4.2.2.

步骤二：卸载自带

OpenJDK

查看删除结果再次键入命令 java -version 出现以下结果表示删除功

1.4.2.3.

步骤三：安装

JDK

Hadoop 2.7.1

要求

JDK

的版本为

1.7

以上，这里安装的是

JDK1.8

版（即JAVA 8

）。

安装命令如下，将安装包解压到

/usr/local/src

目录下，注意

/opt/software

目录下的软件包事先准备好。

1.4.2.4.

步骤四：设置

JAVA

环境变量

在

Linux 中设置环境变量的方法比较多，较常见的有两种：一是配置 /etc/profile 文件，配置结果对整个系统有效，系统所有用户都可以使用；二是配置~/.bashrc 文件，配置结果仅对当前用户有效。这里使用第一种方法。

2.4.1.

实验任务一：获取

Hadoop

安装包

Apache Hadoop 各个版本的下载网址：

https://archive.apache.org/dist/hadoop /common/

。本教材选用的是

Hadoop 2.7.1 版本，安装包为

hadoop-2.7.1.tar.gz

。需要先下载

Hadoop

安装包，再上传到 Linux 系统的

/opt/software

目录。具体的方法见前一节

“

实验一

Linux

操作系统环境设置”

，这里就不再赘述。

2.4.2.

实验任务二：安装

Hadoop

软件

2.4.2.1.

步骤一：安装

Hadoop

软件

安装命令如下，将安装包解压到/usr/local/src/目录下

2.4.2.2.

步骤二：配置

Hadoop

环境变量

和设置

JAVA

环境变量类似，修改/etc/profile 文件。

2.4.2.3.

步骤三：修改目录所有者和所有者组

上述安装完成的

Hadoop

软件只能让

root

用户使用，要让

hadoop

用户能够运行 Hadoop

软件，需要将目录

/usr/local/src

的所有者改为

hadoop

用户。

3.4.1.

实验任务一：配置

Hadoop

配置文件

3.4.2.

实验任务二：测试

Hadoop

本地模式的运行

3.4.2.1.

步骤一

切换到

hadoop

用户

使用

hadoop

这个用户来运行

Hadoop

软件。

3.4.2.2.

步骤二

创建输入数据存放目录

将输入数据存放在

~/input

目录（

hadoop

3.4.2.3.

步骤三

创建数据输入文件

创建数据文件

data.txt

，将要测试的数据内容输入到

data.txt

文件中。

3.4.2.4.

步骤四

测试 MapReduce 运行

1.4.1. 实验任务一：实验环境下集群网络配置

2.4.1.1.

步骤一：每个节点安装和启动 SSH 协议

2.4.1.2. 步骤二：切换到 hadoop 用户

2.4.1.3. 步骤三：每个节点生成秘钥对

2.4.1.4.

步骤四：查看

"/home/hadoop/"

下是否有

".ssh"

文件夹，且

".ssh"

文件下是否

有

两个刚生产的无密码密钥对。

2.4.1.5.

步骤五：将 id_rsa.pub 追加到授权 key 文件中

2.4.1.6.

步骤六：修改文件

"authorized_keys"

权限

通过

命令查看，可以看到修改后

authorized_keys

文件的权限为

“rw-------”

，表示所有者可读写，其他用户没有访问权限。如果该文件权限太大，ssh

服务会拒绝工作，出现无法通过密钥文件进行登录认证的情况。

2.4.1.7.

步骤七：配置

SSH

服务

使用

root

用户登录，修改

SSH

配置文件

"/etc/ssh/sshd_config"

的下列内容，需要将该配置字段前面的#

号删除，启用公钥私钥配对认证方式。

2.4.1.8.

步骤八：重启

SSH

服务

设置完后需要重启 SSH 服务，才能使配置生效。

2.4.1.9. 步骤九：切换到 hadoop 用户

2.4.1.10.

步骤十：验证

SSH

登录本机

在

hadoop

用户下验证能否嵌套登录本机，若可以不输入密码登录，则本机通过密钥登录认证成功。

2.4.2.

实验任务二：交换

SSH

密钥

2.4.2.1.

步骤一：将

Master

节点的公钥

id_rsa.pub

复制到每个 Slave 点

2.4.2.2.

步骤二：在每个

Slave

节点把

Master

节点复制的公钥复制到

authorized_keys

文件 hadoop 用户登录

slave1

和 slave2 节点，执行命令。

2.4.2.3.

步骤三：在每个

Slave

节点删除 id_rsa.pub 文件

2.4.2.4.

步骤四：将每个

Slave 节点的公钥保存到 Master

2.4.3.

实验任务三：验证

SSH

无密码登录

2.4.3.1.

步骤一：查看

Master

节点 authorized_keys 文件

2.4.3.2.

步骤二：查看

Slave

节点 authorized_keys 文件

2.4.3.3.

步骤三：验证

Master

到每个

Slave

节点无密码登录

hadoop

用户登录

master

节点，执行

SSH

命令登录

slave1

和

slave2

节点。可以观察

到不需要输入密码即可实现 SSH 登录。

2.4.3.4.

步骤四：验证两个

Slave

节点到 Master 节点无密码登录

2.4.3.

5. 步骤五：配置两个子节点slave1、slave2的JDK环境。

1.4.

实验过程

1.4.1.

实验任务一：在

Master

节点上安装

Hadoop

1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop

2. 配置 Hadoop 环境变量

3. 使配置的 Hadoop 的环境变量生效

4. 执行以下命令修改 hadoop-env.sh 配置文件

任务二，三，四，五：配置文件参数

任务六:Hadoop 其他相关配置

slave1

slave2

2、大数据平台集群运行

实验一：

hadoop 集群运行

1.4.

实验过程

1.4.1.

实验任务一：配置

Hadoop

格式化

1.4.1.1.

步骤一：

NameNode

格式化

将

NameNode

上的数据清零，第一次启动

HDFS

时要进行格式化，以后启动无

需再格式化，否则会缺失

DataNode

进程。另外，只要运行过

HDFS

，

Hadoop

的

工作目录（本书设置为

/usr/local/src/hadoop/tmp

）就会有数据，如果需要重

新格式化，则在格式化之前一定要先删除工作目录下的数据，否则格式化时会

出问题。

执行如下命令，格式化 NameNode

1.4.1.2.

步骤二：启动

NameNode

执行如下命令，启动 NameNode：

1.4.2.

实验任务二：查看

Java

进程

启动完成后，可以使用

JPS

命令查看是否成功。

JPS

命令是

Java

提供的一个显示当前所有

Java

进程 pid 的命令。

1.4.2.1.

步骤一：

slave

节点启动 DataNode

1.4.2.2.

步骤二：启动

SecondaryNameNode

执行如下命令，启动 SecondaryNameNode：

1.4.2.3.

步骤三：查看 HDFS 数据存放位置：

1.4.3.

实验任务三：查看 HDFS 的报告

1.4.4.

实验任务四：使用浏览器查看节点状态

在浏览器的地址栏输入

http://master:50070

，进入页面可以查看

NameNode

和

DataNode

信息，如图 5-2 所示。

1.4.4.1.

步骤一：在

HDFS

文件系统中创建数据输入目录

确保

dfs

和 yarn 都启动成功

1.4.4.2.

步骤二：将输入数据文件复制到

HDFS

的

/input

目录中

测试用数据文件仍然是上一节所用的测试数据文件~/input/data.txt，内容如下所示。

1.4.4.3.

步骤三：运行

WordCount

案例，计算数据文件中各单词的频度。

运行

MapReduce

HDFS

文件系统中的目录，会自

动生成。如果在执行

MapReduce

命令前，该目录已经存在，则执行

MapReduce

命令会出

错。

例如

MapReduce

命令指定数据输出目录为

/output

，

/output

目录在

HDFS

文件系统中已

经存在，则执行相应的

MapReduce

命令就会出错。所以如果不是第一次运行

MapReduce

，就要先查看

HDFS

中的文件，是否存在

/output

目录。如果已经存在

/output

目录，就要先删除

/output

目录，再执行上述命令。自动创建的

/output

目录在

HDFS

文件

系统中，使用

HDFS 命令查看和操作。

1.4.

实验过程

任务一：下载和解压安装文件

1. 解压安装文件

任务二：设置 Hive 环境

1. 卸载 MariaDB 数据库

2. 安装 MySQL 数据[root@master tools]# cd mysql-5.7.18/

3. 配置 Hive 组件

4. 初始化 hive 元数据

柚子快报邀请码778899分享：大数据 spark 作业4

http://yzkb.51969.com/

精彩链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

柚子快报邀请码778899分享：大数据 spark 作业4

大数据 scala Spark Streaming（头歌）

大数据：Hadoop基础常识hive，hbase，MapReduce，Spark

发表评论取消回复

金钥匙

柚子快报邀请码778899分享：大数据 spark 作业4

大数据 scala Spark Streaming（头歌）

大数据：Hadoop基础常识hive，hbase，MapReduce，Spark

相关文章

发表评论取消回复