大数据

大数据特征: 4v 大量 多样 高速 价值 多样,结构型数据(规则)  非结构型(不规则)

研究大数据的意义  预测

优势  扩容能力强 成本低 高效率 可靠性 高容错性 缺点 不适合处理小数据

热备(在线备份 不影响操作) 冷备(离线备份 关机备份) 温备 ()

hadoop生态圈

HDFS存储  MapReduce计算 Yarn 资源管理 Sqoop 数据迁移 Mahout 算法库 Hbase 结构数据迁移 Zookeeper 协调服务 Hive 基于Hadoop的数仓 Flume 日志收集

模式 独立(学习开发) 伪分布(调试) 完全分布(企业)

spark生态圈

Spark Core 核心组件 包含spark基本功能

sql(即席查询) streaming(实时流查询)MLlib(机器学习库)GraphX(图计算)

独立调度器  yarn mesos(集群管理器)

mapreduce的运行框架

Map阶段

数据被划分为多个小块,并由多个Map任务并行处理,每个Map任务将输入数据映射为键值对,并生成中间结果。这些中间结果按照键进行排序,并被分发到不同的Reduce任务。

Reduce阶段

Reduce任务将相同键的中间结果进行合并和聚合,生成最终的输出结果。Reduce任务可以并行执行,最终的输出结果会被写入到文件系统或其他存储介质中

和spark对比

spark具有以下优势

计算速度快

容错率高

兼容性更好

Spark特点

1)  快速

Spark运行速度是Hadoop MapReduce的100多倍

差异原因 spark数据存放于内存中,mapreduce存放与硬盘中

2) 易用

支持 scala python java R等语言使用,方便其他行业转行

3) 通用

spake 包含有四大组件 sql(即席查询) streaming(实时流查询)MLlib(机器学习库)GraphX(图计算)

mapreduce只包含两个

4)随处运行 

可独立计算,也可与其他配合

5)代码简洁

mapreduce60行 spark1行

mapreduce 运行框架

简单的linux代码

ls 选项 路径   查询目录内容

-l 显示长文件 = ll

-a 显示隐藏文件

-R 显示子目录

pwd 显示当前工作目录

cd 切换目录

mkdir 创建目录

-p 创建多级目录

rm 删除文件/目录

-r 递归删除

-f 强制删除

常 cd -rf 路径  连用

cp  源文件 目标文件复制

mv 源文件 目标文件 剪切/改名

cat 查看文件内容

-n 显示行号

tar 压缩/解压

-c 建立备份

-C 切换工作目录,先进入指定目录再执行压缩/解压缩操作,可用于 仅压缩特定目录里的内容或解压。缩到特定目录。

x 从归档文件中提取文件。

-z 通过 gzip 指令压缩/解压缩文件,文件名为*.tar.gz。

-f 指定备份文件。

-v 显示命令执行过程

useradd 创建用户

passwd 修改密码

chown修改用户组信息

-R 子目录同步修改

chmod 修改用户权限

u g o 拥有人 组 其他

r w x  =  4 2 1  (读 写 执行)

eg

chmod 777 文件

chmod  u+x 文件

su - 用户名  切换用户

vi / vim 文本操作工具

命令模式(刚进入)

i  / a 切换到输入模式,以输入字符。

x 删除当前光标所在处的字符。

: 切换到末行模式,用以在最底一行输入命令

dd 删除光标所在一行

输入模式

在输入模式下可以对文件执行写操作,编写完成后按 Esc 键即可返回命令模式。

末行模式

set nu 显示行号

r 文件名:读取指定的文件。

w 文件名:将编辑内容保存到指定的文件内。

q:退出 vi

wq:保存文件并退出 vi

q!:强制退出 vi,不管是否保存文档内容。

clear 清屏  = ctrl + l

hostname 显示主机名

hostnamectl set-hostname 主机名   修改主机名

ip 

格式 1:ip link dev

功能:对网络设备(网卡)进行操作,选项 add、delete、show、set 分别对 应增加、删除、查看和设置网络设备。

格式 2:ip address dev

功能:对网卡的网络协议地址(IPv4/IPv6)进行操作,选项 add、change、 del、show 分别对应增加、修改、删除、查看 IP 地址。

systemctl  动作 服务

stop 关闭

start 开启

restart 重启

status 显示状态

enable 关机自启

diabsle 关闭关机自启

reboot 重启

expork 环境变量

格式:export [选项] [变量名]

-f 代表[变量名称]中为函数名称。

-n 删除指定的变量。变量实际上并未删除,只是不会输出到后续指令的执行 环境中。

-p 列出所有的 Shell 赋予程序的环境变量。

echo 打印

source = .  =bash  执行文件

参考文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: