Hadoop学习日记-HDFS分布式文件存储系统整体概述

四大国产数据库数据库 2024-05-13 16 0

HDFS

整体概述举例：

包括机架 rack1、rack2 包括5个Datanode,一个Namenode(主角色)带领5个Datanode(从角色)，每一个rack中包含不同的block模块文件为分块存储模式。块与块之间通过replication进行副本备份，进行冗余存储，Namenode对存储的元数据进行记录。该架构可以概括为一个抽象统一的目录树结构。

主从架构 HDFS集群是标准的master/slave主从架构群，一般一个HDFS集群有一个Namenode和一定数目的Datanode组成，Namenode是HDFS主节点（维护元数据），Datanode（管理数据块）是HDFS从节点，两种角色共同完成分布式文件的存储服务。分块存储 HDFS中文件在物理上是分块存储的，每一块默认大小是128M，不足128M则自身为一块。块的大小可以通过配置参数来规定，位于hdfs-default.xml中，dfs.blocksize。副本机制文件的每个block都会有副本，副本系数可以在文件创建的时候指定，也可以在之后通过命令改变，副本数量由参数dfs.replication控制，默认数为3，连同本身共三块副本。元数据（解释型数据）管理 HDFS中元数据包括两种类型： 1）文件自身属性信息：文件名称、权限，修改时间、文件大小、复制因子、数据块大小。 2）文件块位置映射信息：记录文件块和Datenode之间的映射信息，即哪个块位于哪个节点上。抽象目录树（namespace）即传统的层次文件组织结构。用户可以创建目录，然后将文件保存在目录中，Namenode负责维护文件系统的namespace名称空间，任何对文件系统名称空间或属性的修改都将被Namenode记录下。数据块存储文件各个block的具体存储管理由DataNode节点承担，每一个block都可以在多个DataNode上存储。

常用操作

文件系统的shell命令 hadoop fs [generic options]

hadoop fs -ls file:/// #操作本地文件系统

hadoop fs -ls hdfs://node1:8020/ #操作HDFS分布文件系统

hadoop fs -ls / #直接根目录，没有指定协议，将加载读取fs.defaultFS

2.创建文件夹 hadoop fs -mkdir [-p]

… (-p 沿着路径创建父目录)

3.查看指定目录下内容 hadoop fs -ls [-h] [-R] [

…]

(path 指定目录路径、-h 人性化显示文件size、 -R递归查看指定目录及其子目录)

4.上传文件到HDFS指定目录下 hadoop fs -put [-f] [-p] … ( -f覆盖目标文件【已经存在下】，-p保留访问和修改时间，所有权和权限，localsrc本地文件系统， dst目标文件系统)

5.查看HDFS文件内容 hadoop fs -cat … 读取指定文件全部内容，显示在标准输出控制台。

6.下载HDFS文件 hadoop fs -get [-f] [-p] … (下载文件到本地文件系统指定目录， localdst必须是目录， -f 覆盖目标文件 -p保留访问和修改时间，所有权和权限)

7.拷贝HDFS文件 hadoop fs -cp [-f] …(-f 覆盖目标文件)

8.追加数据到HDFS文件中 hadoop fs -appendToFile …(将所有给定本地文件的内容追加到给定dst文件，dst如果不存在，将创建该文件)

工作流程

管道传输ACK校验副本原则

文章链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

hadoop 分布式 HDFS

本文由用户于 2024-05-13 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/17812441.html

金钥匙

Hadoop学习日记-HDFS分布式文件存储系统整体概述

hadoop scala---spark本地调式远程获取hdfs数据注意事项

开发语言抓包习讯云院校数据通过PHP解析导入数据库

发表评论取消回复

金钥匙

Hadoop学习日记-HDFS分布式文件存储系统整体概述

hadoop scala---spark本地调式远程获取hdfs数据注意事项

开发语言 抓包习讯云院校数据通过PHP解析导入数据库

相关文章

发表评论取消回复

开发语言抓包习讯云院校数据通过PHP解析导入数据库