当前位置：移动技术网 > IT编程>数据库>其他数据库 > HDFS介绍~超详细

HDFS介绍~超详细

2019年08月28日 | 移动技术网IT编程 | 我要评论

hdfs（hadoop distributed file system）

(1) hdfs--hadoop分布式文件存储系统

源自于google的gfs论文，hdfs是gfs的克隆版

hdfs是hadoop中数据存储和管理的基础

他是一个高容错的系统，能够自动解决硬件故障，eg：硬盘损坏，hdfs可以自动修复，可以运行于低成本的通用硬件上（低廉的硬盘，4tb是1200元左右）

一次写入多次读取，不支持修改操作，数据按块切分（按128m切块），按位存储（就近原则）

(2) hdfs底层架构 - 分布式文件存储系统

基于物理层存储的分布式（用多台虚拟机来存储咱们的存在）

基于客户端/服务器模式

通常情况下hdfs都会提供容错和备份机制

通常情况下：hdfs都是基于本地系统的文件存储系统

(3) 分布式文件系统的特点（优缺点）

优点：

高可靠：

按位存储，数据分配就近原则，会把数据分配到离他最近的datanode,所以值得人们信赖

高扩展：

集群节点可以根据业务需求随时扩展和缩减

高效性：

可以在各个集群集群节点之间动态的移动数据，并且保证集群间各节点之间的动态平衡，因此处理速度非常快

高容错：

hadoop能够自动保存多个副本（默认3份，可修改），并且能够将失败的任务自动重新分配，解决硬件故障

成本低：

不适合高效存储大量小文件

不适合低延迟的数据访问

不支持多用户的写入和修改操作，支持单用户的写入

(4) hdfs基本概念

hdfs是一个分布式文件存储系统（ndfs、gfs）

hdfs是用java语言实现的、分布式的、可扩展的文件系统

hdfs是hadoop的三大核心和四大模块之一

hdfs主要应用于海量数据的存储

hdfs是*nix(eg:linux,unix)

(5) hdfs的前提和设计目标

硬件问题

错误检测和快速、自动的恢复是hdfs最核心的架构目标

存储超大文件，存储量可以达到pb、eb级别（单个文件一般至少是百mb以上）

数据访问：流式访问（不支持随机访问）

hdfs的简单一致性模型：

hdfs需要对它的应用程序实行一次写入、多次读取的访问模式

(6) hdfs的基本概念

hdfs的基本存储单位：块，块是最小的数据读写单位

hadoop1.0*默认存储块大小：64m

hadoop2.0*默认存储块大小：128m

块大小可以在配置文件hdfs-site.xml修改（1.0参数dfs.block.size/2.0参数dfs.blocksize）

块的默认单位：byte

每个块都有自己的全局（唯一）id

以块为单位在集群服务器上分配存储

块的好处：

一个文件的大小可以大于集群中任一磁盘的容量

块适合于数据备份，通过了容错能力和可用性

(7) hdfs 底层架构

namenode：

集群的老大，主节点，存放元数据（metedata）信息

元数据：命名空间，块的生成时间，块的大小，文件目录，最后访问时间等。。。

记录每一条数据块在各个datanode上的位置和副本信息

协调客户端对文件的访问

namenode使用事物日志（editslog）记录元数据的变化信息，使用映像文件（fsimagelog）来存储系统的命名空间，包括：文件映射、文件属性等；

通说检查点（checkpoint）更新映像文件

secondarynamenode：

namenode的小秘书，排行老二，协助namenode

是namenode的备份，实质上相当于虚拟机的快照

尽量不要把secondarynamenode和namenode放在同一台机器上

datanode：

小弟，负责存储数据的

一次写入，多次读取（不支持数据修改操作）

数据文件是以块存储的

数据块尽量分布在不同节点的不同datanode上（保证读取效率大大提升）

(8) hdfs读文件流程

先通过客户端调用filesystem对象的.open()方法打开hdfs中需要读取的文件
filesystem通过远程协议调用namenode，确定要访问的文件的数据块的位置；namenode返回一个含有数据块的“元数据”信息（即文件的基本信息）；然后，datanode按照namenode定义的距离值进行排序，如果客户端本身就是一个datanode，那么会优先从本地的datanode节点上进行数据读取返回一个inputstream给客户端，让其从fsdatainputstream中读取数据，fsdatainputstream接着包装一个dinputstream，用来用来管理datanode和namenode的i/o
namenode向客户端返回一个包含数据块信息的地址，客户端会根据创建一个fsdatainputstream，开始对数据进行读取
fsdatainputstream根据开始时候存放的位置，连接到离它最近的datanode，对其上数据进行从头读取操作。读取过程中客户端会反复调用.read()方法，以i/o的（流式方式）从datanode上访问读取数据
当读取到block的最后一块时，fsdatainputstream会关闭掉当前datanode的连接，然后查找能够读取的下一个block所在的距离当前最近的datanode
读取完之后调用.close()方法，关闭fsdatainputstream8

(9) hdfs写文件流程

客户端调用filesystem的.create()方法来请求创建文件
filesystem通过namenode发送请求，创建一个新文件，但此时并不关联其它任何数据块。namenode进行很多检查保证不存在要创建文件已经在与hdfs系统当中，同时检查是否有相应的权限来创建这个文件。如果这些检查都已完成，那么namenode就会记录下来这个新建的文件的信息。filesystem就返回一个fsdataoutputstream给客户端让他来写数据。和读的情况一样，fsdataoutputstream将会包装一个dfsoutputstream用于和datanode和namenode进行通讯的。一旦文件创建失败，客户端会接收到一个ioexception，表示文件创建失败，停止后续的所有任务
客户端开始写数据。fsdataoutputstream把要写入的数据分成块的形式，将其写入到队列中。其中的数据有datastream读取（datastream的职责：让namenode分配新的块--通过找到合适的datanode来存储备份的副本数据）这些datanode组成一条流水线，假设是一个三级流水线，那么里面含有三个节点。此时datastream把数据首先写入到离他最近的datanode上（第一个节点）；然后由第一个节点将数据块写入到第二个节点，第二个节点继续把数据块传送到第三个节点上
fsdataoutputstream维护了一个内部关于write packet的队列，里面存放了等待datanode确认无误的packets信息。这个队列称为等待队列。一个packet的信息被移出本队列并且当packet流水线中的所有节点确认无误
当完成数据写入操作后，客户端会调用.close()方法，在通知namenode它些数据完成之前，这个方法将flush（刷新）残留的packets，并且等待信息确认，namenode已经知道了文件由哪些数据块，通过datastream询问数据块的分配，所以它在返回成功之前必须要完成配置文件中配置的最小副本数的复制操作

(10) hdfs-可靠性

按位存储 -- 就近原则

(11) hdfs -- 容错率

冗（rong）余副本策略

可以在hdfs-site中指定副本数

所有的数据块都有副本数

datanode启动时便利本地文件系统，产生一份hdfs数据块和本地文件系统对应的数据队列进行数据效验，然后汇报给namenode，namenode负责管理

(12) hdfs的机架策略

集群的节点一般是放在不同的机架上，机架之间带宽要比机架内带宽要小（这样做的话传输速度）

默认一个机架内存两个副本，然后再在另一个机架存放一个副本，这样可以防止机架失效数据的丢失，同时他也能够提高带宽利用率

0.17版之前

默认存3个副本

第一个副本放在与客户端同一个机架的距离最近的机器中

第二个副本放在同一个机架

第三个副本放到不同机架的某一设备中

0.17版之后

默认存3个副本

第一个副本放在与客户端同一个机架的机器中

第二个副本放到不同机架的某一设备中

第三个副本放到与第二个副本同一机架的不同设备中

(13) 心跳机制

心跳 3秒一次

块报告 5分钟一次

判断datanode是否死亡

10*3+2*5+60=630秒

namenode周期性从datanode接收心跳报告（3s）和块报告（5min）《用来监控集群状态；如果出现错误 -- 自动修复

namenode根据块报告验证元数据信息

没有按时发送心跳报告的datanode，会被namenode标记为死亡状态（宕《dang》机），不会再给datanode分配任何i/o请求，如果datanode失效（死亡或者假死）了，namenode发现datanode的副本数降低，低于之前设定的副本因子值（副本数），namenode在检测出这些数据块丢失之后会在何时的时间自动修复

自动修复数据的原因：

数据副本本身损坏，磁盘故障，修改系统配文件导致副本因子增大，断电等等

(14) 安全模式（safeinmode）

namenode启动的时候会先经过一个"安全模式"（保证数据安全）

安全模式下不会产生数据写入操作，因为namenode验证数据，不支持此操作；支持读取

在此阶段namenode收集各个datanode节点的报告，当数据块的最小副本数=配置文件中设置的值时，认为他是“安全式”

此时退出安全模式，才可以进行数据写入操作

当检测到副本数不足的数据块时，该数据块会被hdfs自动复制直到达到配置文件中设置的最小副本数时停止复制

安全模式（sadeinmode）下了可以进行的操作：

只能够查询，不支持任何对于数据改动（增加，删除）

如何进入安全模式？

进入| 离开 | 下载

hdfs dfsadmin -safemode enter|leave|get

进入时的情景：

namenode启动过程中进入
手动进入 hdfs dfsadmin -safemode enter
阀值计算公式：已经启动的datanode节点数 / 总数、

阀值为1的进入安全模式

<0 永远不安全

0.999和1之间离开安全模式

0~0.999之间处于安全模式

(15) hdfs的校验和

hdfs的客户端软件实现了对于hdfs文件内容的效验和（chechsum）的检查（提高可靠性）

在文件创建时（调用。creat（）），会计算出每个数据块的校验和

校验和会作为一个单独的隐藏文件保存在命名空间namespace下

获取文件时会检查数据块对应的校验和是否和隐藏文件（namespace下的文件）相同，值相同数据块未发生丢失，值不同数据块丢失，如果损坏或丢失namenode会自动修复数据块

正在读取数据时发生丢失，不会进行数据修复，不影响数据读取，可以正常操作

(16) 回收站（类似于windows的回收站，防止误删除操作）

删除文件时，实际上是吧他放入了回收站（trash）

如果误删除文件可以进行还原

可以在集群配置文件中设置一个时间阀值，当回收站的文件存放时间达到此时间阀值时会自动清空，彻底删除文件，并且彻底释放原来文件占用的datanode节点中的数据块

默认是关闭状态，可以通过core-site.xml添加fs.trash.interval来打开并配置时间阀值，时间以分钟为单位

(17) 元数据 -- 保护

影响文件和事物日志是namenode的核心数据

namenode会因为副本数的增加而大大降低它的处理速度，但是可以增加它的安全性（即可靠性）

hadoop1.0*中namenode依然只有一个，namenode死掉之后必须手动启动

hadoop2.0*中集群配置高可用，使其拥有多个namenode，一个处于active状态的namenode节点死掉之后，ha会自动通过secondarynamenode启动处于standby（准备）状态的namenode，集群可以正常运行

hadoop3.0*中拥有多个namenode，无需进行高可用ha集群配置，standby状态的namenode立刻自动切换为active状态

(18) hdfs常用命令

hadoop/hdfs/yarn fs -cmd <args>

1)文件操作

列出hdfs文件系统中根目录

hdfs dfs -ls / //列出hdfs下的二级目录

hdfs dfs -ls -r / //会列出hdfs的所有文件详细信息

2）上传文件（hdfs测试命令）

hadoop/hdfs/yarn dfs -put ./test1 ./test

|上传文件路径目标位置路径

3）将hdfs的文件下载到本地并且重名

hadoop/hdfs/yarn dfs -get in getin(in:下载文件的地址 getin：下载下来的文件放在的地址)

先是hdfs文件路径，后是本地文件路径

4）copytolocal命令复制

hdfs dfs -copytolocal <hdfs src> <local src>

作用与-get命令一样

5)copyfromlocal命令复制

hdfs dfs -copyfromlocal <local src><hdfs src>

作用与-put命令一样

movefromlocal 移动

hdfs dfs -movefromlocal <local src><hdfs src>

6）删除文档

hdfs dfs -rmr <hdfs file>

hdfs dfs -rm

hdfs dfs -rm -r

7)查看文件内容

hdfs dfs -cat 文件

8)建目录

hdfs dfs -mkdir 目录名

建立多级目录时父目录不存在会报错，目录需要一级一级创建

9)合并多个文件

hdfs dfs -getmerge 多个文件路径空格隔开合并之后文件名

10)执行基本信息

hdfs dfsadmin -report

11)进入/查看/退出安全模式

hdfs dfsadmin -safemode enter|get |leave

12)添加节点

start-all.sh

13)负载均衡

start-balancer.sh

扫码关注,一起学习进步,回复'分享',会有惊喜等着你~

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]
字符串相似度处理函数

oracle里面查比如存储过程里面与表SALES有关jobs: SELECT * FROM (SELECT a.name,upper(b.what)AS... [阅读全文]
如何在 HBase Shell 命令行正常查看十六进制编码的中文？哈哈~

今天比较开心，只想哈哈~哈哈哈~ 啥也不多说了，直接看示例吧！绝对比我口才好~ 哈哈！Get到了吗？好意思不帮我分享嘛~哈哈~ 转载请注明出处！欢迎关注... [阅读全文]
一小时搭建实时数据分析平台

实时数据分析门槛较高，我们如何用极少的开发工作就完成实时数据平台的搭建，做出炫酷的图表呢？如何快速的搭建实时数据分析平台，首先我们需要实时数据的接入端... [阅读全文]
Kylin on Parquet 介绍和快速上手

Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟，但是存在着一定的局限性。因此，Kyligence 推出了 K... [阅读全文]

网友评论


验证码：

HDFS介绍~超详细

2019年08月28日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论