当前位置: 移动技术网 > IT编程>网页制作>HTML > HDFS的优缺点以及组成架构

HDFS的优缺点以及组成架构

2020年07月17日  | 移动技术网IT编程  | 我要评论

1.Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)
上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点
。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,
适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索
引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。
而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。
2.hdfs适合一次写入,多次读出的场景,暂不支持文件的修改
3.HDFS的优点:
高容错性:(1)数据自动保存多个副本,他通过增加副本的形式,提高容错性。某一个副本丢失以后,他可以自动恢复
(2)适合处理大数据 数据规模:能够处理数据规模达到GB,TB,甚至PB级别的数据
文件规模:能够处理百万规模以上的文件数量,数量相当之大
(3)可构建在廉价机器上,通过多副本机制,提高可靠性
4.HDFS的缺点:
(1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的
(2)无法高效的对大量小文件进行存储

存储大量小文件的话,他会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的。
小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
(3)不支持并发写入,文件随机修改
(1)一个文件只能有一个写,不允许多个线程同时写。
(2)仅支持诗句append,不支持文件的随机修改

在这里插入图片描述Client:客户端
(1)文件切分,文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传
(2)与NameNode交互,获取文件的位置信息
(3)与DataNode交互,读取或者写入数据
(4)Client提供一些命令来管理HDFS,比如NameNode格式化
(5)通过命令访问HDFS,对HDFS进行增删改查操作
Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,他并不能马上替换NameNode并提供服务
(1)辅助namenode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode
(2)在紧急情况下,可辅助恢复NameNode
6.HDFS文件块大小
Hdfs中的文件在物理上是分块存储的,块的大小可以通过配置参数(dfs.block.block)配置,默认是128M
如果HDFS的设置块太小,会增加寻址时间。
如果太大,从磁盘传输数据的时间会明显大于定位这个块开始所需的时间,太慢。
HDFS块的大小设置主要取决于磁盘传输速率

本文地址:https://blog.csdn.net/weixin_43796131/article/details/107332795

如对本文有疑问, 点击进行留言回复!!

相关文章:

验证码:
移动技术网