网站首页 > 数据库 > 正文

运维服务器 Spark，hadoop，Linux基础命令

嵌入式开源项目数据库 2024-03-27 6 0

目录

Linux命令

查看主机名:hostname编辑

修改主机名:hostnamectl set-hostname xxx

创建新用户，该命令只能由 root 用户使用：useradd

设置或修改指定用户的口令：passwd

显示当前目录:pwd

显示指定目录中的文件或子目录信息。当不指定文件或目录时，显示当前工作目录中的文件或子目录信息：ls

用于切换当前用户所在的工作目录，其中路径可以是绝对路径也可以是相对路径：cd

用于创建目录。创建目录前需保证当前用户对当前路径有修改的权限：mkdir

创建文件：touch

用于删除文件或目录：rm

复制文件或目录：cp

移动文件或对其改名：mv

查看文件内容：cat

编辑为文件和目录创建档案：tar

将文件或目录的拥有者改为指定的用户或组，用户可以是用户名或者用户 ID，组可以是组名或者组 ID，文件是以空格分开的要改变权限的文件列表支持通配符：chown

用于在终端设备上输出字符串或变量提取后的值。一般使用在变量前加上$符号的方式提取出变量的值：echo例如：$PATH然后再用 echo 命令予以出。

Hadoop生态圈

spark生态圈及特点

MapReduce和spark的对比

结束结构化数据和非结构化数据

热备，冷备，温备

Linux命令

查看主机名:hostname

修改主机名:hostnamectl set-hostname xxx

创建新用户，该命令只能由 root 用户使用：useradd

设置或修改指定用户的口令：passwd

显示当前目录:pwd

显示指定目录中的文件或子目录信息。当不指定文件或目录时，显示当前工作目录中的文件或子目录信息：ls

-a ：全部的档案，连同隐藏档( 开头为 . 的档案) 一起列出来。

-l ：长格式显示，包含文件和目录的详细信息。

-R ：连同子目录内容一起列出来。

用于切换当前用户所在的工作目录，其中路径可以是绝对路径也可以是相对路径：cd

用于创建目录。创建目录前需保证当前用户对当前路径有修改的权限：mkdir

参数 -p 用于创建多级文件夹：mkdir -p

创建文件：touch

用于删除文件或目录：rm

常用选项-r -f，-r 表示删除目录，也可以用于删除文件。

-f 表示强制删除，不需要确认。删除文件前需保证当前用户对当前路径有修改的权限。

复制文件或目录：cp

格式： cp [选项]<文件> <目标文件>

[root@localhost ~]# cp /etc/profile ./

[root@localhost ~]# ls anaconda-ks.cfg profile test

移动文件或对其改名：mv

常用选项-i -f -b，-i 表示若存在同名文件，则向用户询问是否覆盖；

-f 直接覆盖已有文件，不进行任何提示；

-b 当文件存在时，覆盖前为其创建一个备份。

[root@localhost ~]# ls anaconda-ks.cfg profile test

[root@localhost ~]# mv profile test/

[root@localhost ~]# ls test/ Profile

查看文件内容：cat

常用选项：-n 显示行号（空行也编号）

为文件和目录创建档案：tar

tar 命令，可以把一大堆的文件和目录全部打包成一个文件，这对于备份文件或将几个文件组合成为一个文件以便于网络传输是非常有用的。该命令还可以反过来，将档案文件中的文件和目录释放出来。

常用选项： -c 建立新的备份文件。

-C <目录> 切换工作目录，先进入指定目录再执行压缩/解压缩操作，可用于仅压缩特定目录里的内容或解压缩到特定目录。

-x 从归档文件中提取文件。

-z 通过 gzip 指令压缩/解压缩文件，文件名为*.tar.gz。

-f<备份文件> 指定备份文件。 -v 显示命令执行过程。

[root@localhost ~]# ls anaconda-ks.cfg test

[root@localhost ~]# tar -cvf test.tar test test/ test/profile

[root@localhost ~]# ls anaconda-ks.cfg test test.tar

[root@localhost ~]# tar -zcvf test.tar.gz test test/ test/profile

[root@localhost ~]# ls anaconda-ks.cfg test test.tar test.tar.gz

[root@localhost ~]# tar -zxvf test.tar.gz -C /opt/ test/ test/profile

[root@localhost ~]# ls /opt/ Test

将文件或目录的拥有者改为指定的用户或组，用户可以是用户名或者用户 ID，组可以是组名或者组 ID，文件是以空格分开的要改变权限的文件列表支持通配符：chown

选项“-R”表示对目前目录下的所有文件与子目录进行相同的拥有者变更。

[root@localhost ~]# chown teacher:teacher test.tar.gz

[root@localhost ~]# ll

总用量 20 -rw-------. 1 root root 1241 12月 20 2021 anaconda-ks.cfg drwxr-xr-x. 2 root root 21 11月 9 23:19 test -rw-r--r--. 1 root root 10240 11月 10 00:01 test.tar -rw-r--r--. 1 teacher teacher 1008 11月 10 00:02 test.tar.gz

用于在终端设备上输出字符串或变量提取后的值。一般使用在变量前加上$符号的方式提取出变量的值：echo例如：$PATH然后再用 echo 命令予以出。

示例： #输出一段字符串 LinuxCool.com

[root@master ~]# echo "LinuxCool.com" LinuxCool.com #输出变量 PATH 值

[root@master ~]# echo $PATH /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin

Hadoop生态圈

Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。

Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目前生态圈结构大致如图所示：

根据服务对象和层次分为：数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。接下reore来对Hadoop生态圈中出现的相关组件做一个简要介绍

spark生态圈及特点

spark生态圈的重要组件有：Spark Core（Spark的核心，提供底层框架及核心支持）；BlinkDB；Spark SQL；Spark Steaming；MLBase；GraphX；SparkR

特点：快速；易用；通用；随处运行；代码简洁

MapReduce和spark的对比

1.通用性 1.1Spark 一栈式，主要说的是，Spark不仅仅可以进行离线计算(SparkCore)，同时还可以进行流式处理(SparkStreaming)、交互式计算(SparkShell,SparkSQL，StructStreaming，图计算(SparkGraphx),机器学习(SparkMLLib),也就是说我们可以在一个项目中，同时可以使用上述所有的框架，这是Spark相比较于其它框架最大的优势。可以使用多中语言进行编程

1.2MR mapreduce主要是擅长离线的计算,不擅长实时计算

2.内存和磁盘的使用情况 2.1Spark Spark是基于RDD,主要使用内存进行储存计算的源数据及过程的数据,避免了写磁盘的IO操作,速度自然比较快

2.2MR mapreduce基于磁盘的计算,计算的过程中需要大量的溢写磁盘的操作,IO瓶颈比较明显,速度自然不好

3.API 3.1Spark Spark编程过程中系统提供了大量的算子,transformation和action算子,功能之强大是MR无法比拟的,编程自由度比较高

3.2MR MR的编程API只是提供了 map和reduce的操作,编程局限性比较大,什么操作都需要往规定好的模式上去套,死板

4.系统自由度 4.1Spark Spark给用户提供了诸多的参数进行设置,适应不同场景的应用,比如sort,系统并没有强制进行sort,如果需要可以进行相应参数的设置,去掉自动排序的功能之后提高效率

4.2 MR maoreduce的shuffle的过程中相当的复杂,虽然shuffle的过程是奇迹发生的地方,但是这里边做的事太多了,很多没有法子去掉,也就是说有可能对于场景无用的操作也做了,比如排序,本身其实我们有可能不需要sort,但是基于MR的特性,它必须依靠sort,这样白白浪费了性能

5.系统容错性 5.1Spark Spark中有个血缘关系,在计算过程中如果出现问题造成数据丢失,系统不用重新计算,只需要根据血缘关系找到最近的中间过程数据进行计算,而且基于内存的中间数据存储增加了再次使用的读取的速度

5.2MR MR的过程中的中间文件溢写磁盘,如计算过程中出现数据的丢失,只能重新来过.严重影响时效性

结束结构化数据和非结构化数据

结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。举一个例子：

id name age gender 1 Liu Yi 20 male 2 Chen Er 35 female 3 Zhang San 28 male

所以，结构化的数据的存储和排列是很有规律的，这对查询和修改等操作很有帮助。

但是，它的扩展性不好。比如，如果字段不固定，利用关系型数据库也是比较困难的，有人会说，需要的时候加个字段就可以了，这样的方法也不是不可以，但在实际运用中每次都进行反复的表结构变更是非常痛苦的，这也容易导致后台接口从数据库取数据出错。你也可以预先设定大量的预备字段，但这样的话，时间一长很容易弄不清除字段和数据的对应状态，即哪个字段保存有哪些数据。

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。

非结构化数据其格式非常多样，标准也是多样性的，而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术，比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

热备，冷备，温备

1> 冷备份 : 备份系统未安装或未配置成与当前使用的系统相同或相似的运行环境，应用系统数据没有及时装入备份系统。一旦发生灾难，需安装配置所需的运行环境，用数据备份介质(磁带或光盘) 恢复应用数据，手工逐笔或自动批量追补孤立数据，将终端用户通过通讯线路切换到备份系统，恢复业务运行优点 : 设备投资较少，节省通信费用，通信环境要求不高缺点 : 恢复时间较长，一般要数天至1周，数据完整性与一致性较差

2> 温备份 : 将备份系统已安装配置成与当前使用的系统相同或相似的系统和网络运行环境，安装应用系统业务定期备份数据。一旦发生灾难，直接使用定期备份数据，手工逐笔或自动批量追补孤立数据或将终端用户通过通讯线路切换到备份系统，恢复业务运行优点 : 设备投资较少，通信环境要求不高缺点 : 恢复时间长，一般要十几个小时至数天，数据完整性与一致性较差

3> 热备份 : 备份处于联机状态，当前应用系统通过高速通信线路将数据实时传送到备份系统，保持备份系统与当前应用系统数据的同步；也可定时在备份系统上恢复应用系统的数据。一旦发生灾难，不用追补或只需追补很少的孤立数据，备份系统可快速接替生产系统运行，恢复营业优点 : 恢复时间短，一般几十分钟到数小时，数据完整性与一致性最好，数据丢失可能性最小缺点 : 设备投资大，通信费用高，通信环境要求高，平时运行管理较复杂

在计算机服务器备份和恢复中　冷备份服务器(cold server) 是在主服务器丢失的情况下才使用的备份服务器。冷备份服务器基本上只在软件安装和配置的情况下打开，然后关闭直到需要时再打开　温备份服务器(warm server) 一般都是周期性开机，根据主服务器内容进行更新，然后关机。经常用温备份服务器来进行复制和镜像操作　热备份服务器(hot server) 时刻处于开机状态，同主机保持同步。当主机失灵时，可以随时启用热备份服务器来代替

好文链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

linux 运维服务器

本文由用户于 2024-03-27 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18690575.html

上一篇

大数据分布式 Windows环境部署Hadoop-3.3.2和Spark3.3.2

下一篇

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-04）

发表评论取消回复

返回顶部暗黑模式