当前位置：移动技术网 > IT编程>数据库>其他数据库 > HDFS基本原理

HDFS基本原理

2019年08月03日 | 移动技术网IT编程 | 我要评论

一、什么是hdfs

hdfs即hadoop分布式文件系统（hadoop distributed filesystem），以流式数据访问模式来存储超大文件，它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。hdfs是一个高度容错性的系统，适合部署在廉价的机器上。hdfs能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。hdfs放宽了一部分posix约束，来实现流式读取文件系统数据的目的。hdfs在最开始是作为apache nutch搜索引擎项目的基础架构而开发的。

二、hdfs架构

个hdfs集群包含一个单独的namenode和多个datanode。hdfs采用一种称为rack-aware的策略。rack1 和rack2

备份数据的存放：备份数据的存放是hdfs可靠性和性能的关键。hdfs采用一种称为rack-aware的策略来决定备份数据的存放。通过一个称为rack awareness的过程，namenode决定每个datanode所属rack id。缺省情况下，一个block块会有三个备份，一个在namenode指定的datanode上，一个在指定datanode非同一rack的datanode上，一个在指定datanode同一rack的datanode上。这种策略综合考虑了同一rack失效、以及不同rack之间数据复制性能问题。

副本的选择：为了降低整体的带宽消耗和读取延时，hdfs会尽量读取最近的副本。如果在同一个rack上有一个副本，那么就读该副本。如果一个hdfs集群跨越多个数据中心，那么将首先尝试读本地数据中心的副本。安全模式：系统启动后先进入安全模式，此时系统中的内容不允许修改和删除，直到安全模式结束。安全模式主要是为了启动检查各个datanode上数据块的安全性

三、hdfs核心组件详解

*********************************************************namenode**************************************************

1、namenode是hdfs的核心模块，也是hdfs架构的master。nomenode一点宕机则整个hdfs服务不可用。
2、namenode仅仅存储hdfs的元数据：文件系统中的文件目录结构，并且能跟踪整个集群中的文件。
3、namenode不存储实际的文件数据，实际数据是存储在datanode中，他存储的是文件分块的基础数据；能通过文件获取文件的快列表及其分布在哪些datanode上。
4、namenode并不会将文件的分块数据持久化存储，这些信息会在hdfs启动时由各个datanode上报过来。他把这些数据存入内存中。并且会定时对内存中的数据进行快照。所以对于namenode节点的机器内存应该大一些。

5、namenode在hadoop 2.0版本之前是单点的，hadoop 2.0版本才提出了高可用 (high availability, ha) 解决方案，并且经过多个版本的迭代更新，已经广泛应用于生产环境。

6、namenode也可以将数据持久化

*********************************************************datanode**************************************************

1、datanode：hdfs的slave节点，存储文件实际的数据，负责将数据落入磁盘。所以datanode节点需要较大的磁盘。
2、datanode在启动时会将自己发布到namenode上，并上报自己持有的数据块表。定期向namenode发送心跳，如果namenode长时间没有接受到datanode发送的心跳，namenode就会认为该datanode以及失效，将其剔除集群。心跳参数dfs.heartbeat.interval=3（默认3秒发送一次心跳）
3、当某个datenode宕机后，不会影响数据和集群的可用性。namenode会安排其他datanode进行副本复制接管他的工作。
4、datanode会定时上报自己负责的数据块列表。

*********************************************************secondary namenode**************************************************

secondarynamenode有两个作用，一是镜像备份，二是日志与镜像的定期合并。两个过程同时进行，称为checkpoint. 镜像备份的作用:备份fsimage(fsimage是元数据发送检查点时写入文件);日志与镜像的定期合并的作用:将namenode中edits日志和fsimage合并,防止如果namenode节点故障，namenode下次启动的时候，会把fsimage加载到内存中，应用edit log,edit log往往很大，导致操作往往很耗时。

四、hdfs操作流程

**************************************************文件上传流程******************************************

1、客户端发起写文件请求 hadoop fs -put
2、namenode检查上传文件的命名空间是否存在（就是检测文件目录结构是否存在），创建者是否有权限进行操作。然后返回状态高数客户端你可以上传数据
3、客户端按照分块配置大小将文件分块。然后请求namenode我要上传blk1，副本数是三个，这个文件一共分割了5块。
4、namenode检测自己管理下的datenodes是否满足要求，然后返回给客户端三台datenode节点信息（存储策略是机架模式）。
5、client端根据返回的datanode信息选择一个离自己最近的一个datanode节点，创建pipeline（数据传输管道），datanode1->datanode2创建pipeline,datanode2->datanode3创建pipeline;datanode3通过这一串管道传递给client数据传输管道已经建立完毕。
6、client端创建stream流（以packet为单位传输数据 64kb）上传数据。
7、datanode1接受并保持源源不断的packet，然后把packet源源不断的传递给datanode2，datanode2也做相应的操作。
8、datanode也通过pipeline发送ack认证数据是否接收完毕。
9、第一个数据块上传完毕后client端开始上传第二个数据块

*********************************************************文件的获取流程****************************************

1、client 发起 hadoop fs -get请求
2、nomenode检查该文件的信息，文件的分块信息和每个分块所对应哪个datenode，，以及备份信息和备份信息所在哪个datanode。把这些信息返回给client端。（返回原则也是机架原则，根据网络拓扑将距离最近的datanode排在前边返回）
3、根据namenode的信息，请求各个文件块对应的datanode节点获取文件数据。
4、合并下载过来的数据块，形成一个完整的文件。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]
字符串相似度处理函数

oracle里面查比如存储过程里面与表SALES有关jobs: SELECT * FROM (SELECT a.name,upper(b.what)AS... [阅读全文]
如何在 HBase Shell 命令行正常查看十六进制编码的中文？哈哈~

今天比较开心，只想哈哈~哈哈哈~ 啥也不多说了，直接看示例吧！绝对比我口才好~ 哈哈！Get到了吗？好意思不帮我分享嘛~哈哈~ 转载请注明出处！欢迎关注... [阅读全文]
一小时搭建实时数据分析平台

实时数据分析门槛较高，我们如何用极少的开发工作就完成实时数据平台的搭建，做出炫酷的图表呢？如何快速的搭建实时数据分析平台，首先我们需要实时数据的接入端... [阅读全文]
Kylin on Parquet 介绍和快速上手

Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟，但是存在着一定的局限性。因此，Kyligence 推出了 K... [阅读全文]

网友评论


验证码：

HDFS基本原理

2019年08月03日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论