hadoop（2）--hdfs

作者: 5a713e32ab76 | 来源:发表于2018-08-08 11:12 被阅读5次

HDFS HA 原理
HDFS常用命令
hadoop学习笔记（一）
hadoop命令
详解hadoop之一:HDFS架构
HDFS基础命令
2.Hadoop伪分布式环境搭建和基本概念
hadoop（2）--hdfs
Hadoop面试知识点
Hadoop学习笔记2

Hadoop（2）

Hadoop底层封装的的是HDFS和MapReduce两种框架

在Hdfs中采用的是主从结构（Madter-slaver）就像领导和员工一样，领导负责整个公司的管理工作，而员工就负责向领导汇报工作以及完成领导分发的任务

在HDFS中，NameNode（Master）就负责对整个集群中节点的管理以及维护文件系统树以及文件目录。而DataNode分布在不同的机架上，就像是员工分布在公司别的不同部门一样，在客户端或者领导NameNode的调度下，存储并检索数据块，并定期向NameNode发送所存储的数据块的列表，报告自己的情况，可以让NameNode随时掌握整个集群的资源情况。

概念解释

机架：HDFS集群主要是由分布在不同机架上的多个机架的DataNode组成的，相同机架上的机器之间通过TCP协议进行相应的连接（7077端口），不同机架上的节点通过交换机进行通信，HDFS会通过机架感知策略感知每一个DataNode所属的机架，使用副本放置策略来改进数据的可靠性、可用性和网络带宽的利用率

机架感知策咯：在源码中就是通过判断机架中各个节点与NameNode节点的距离进行判断

分别为0（同一个节点的不同块上）、1（同一个机架的不同节点上）、3（同一个机房的不同机架上）、4（不同的机房）

副本放置策略：为了防止数据意外丢失，就像我们会对手机中的数据在电脑上进行备份一样，我们也会在节点上对数据进行一个备份，默认的是3个备份，

第一个block副本放在和client所在的node里（如果client不在集群范围内，则这第一个node是随机选取的，当然系统会尝试不选择哪些太满或者太忙的node）。

第二个副本放置在与第一个节点不同的机架中的node中（随机选择）。

第三个副本和第二个在同一个机架，随机放在不同的node中。

如果还有更多的副本就随机放在集群的node里

通过这一策略，当发生意外断电等情况的时候还在其余的机架或者几点上进行了数据的存储，可以去其他的数据放置处重新获得数据进行计算，尽量的减少了数据丢失的可能

心跳：在Hdfs中，节点之间通过TCP协议进行通信，DataNode每3s向NameNode发送一个心跳，每10次心跳之后向NameNode发送一个数据块报告自己的信息，通过这些信息，NameNode能够在发生意外之后可以重新创建元数据，并确保每个数据块有足够的副本

元数据：存储在NameNode中，是文件系统中的文件和目录的属性信息，当NameNode启动的时候会创建fsimage和edit.log两个文件（fsimage存储的是文件metadata信息，不包括文件块的位置信息（位置信息是NameNode存放在内存中），edit文件存放是的文件系统的所有更新操作的路径，他们两个都是经过序列化的，当NameNode失败之后，文件metadata信息可以加载fsimage到内存中，在editlog中应用相应的操作）当遇到checkpoint进行触发后，secondaryNameNode会定时的将fsimage和editlog进行合并更新，NameNode就可以随时掌握集群的状态信息，

Client：就是客户端。

文件切分。文件上传HDFS的时候，Client 将文件切分成一个一个的Block，然后进行存储。

与NameNode交互，获取文件的位置信息。

与DataNode交互，读取或者写入数据。

Client提供一些命令来管理 HDFS，比如启动或者关闭HDFS。

Client可以通过一些命令来访问 HDFS。

HDFS读写操作：

[if !supportLists]1、[endif]读操作：