HBase数据存取流程_其他数据库

HBase数据存取流程

一、hbase的特点是什么

1.hbase一个分布式的基于列式存储或者行式存储的数据库,基于hadoop的hdfs存储，zookeeper进行管理。

2.hbase适合存储半结构化或非结构化数据，对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。

3.hbase为null的记录不会被存储.

4.数据存储模式为key，value模式：（table，rowkey，column，timestamp）-> value

5.hbase是主从架构。hmaster作为主节点，hregionserver作为从节点。

二、hbase存数据流程

流程：client请求zookeeper确定meta表所在的regionserver所在的地址，接着根据rowkey找到数据所归属的regionserver；用户提交put或delete请求时hbaseclient会将put或delete请求添加到本地buffer中，符合一定条件

会通过异步批量提交服务器处理。

接着数据到达region后，服务端处理流程如下：

流程：regionserver去获取rowlock，region更新共享锁；接着hbase会先写写日志wal（数据可靠性）再写缓存memstore（阈值默认64m，每个列族对应一个store下的memstore）；然后释放锁后将日志落到hdfs；若memstore达到阈值则将缓存数据落磁盘storefile，最后多个storefile发生合并；若storefile很大会触发split操作，将当前region分割成2个region，并同步到hmaster。

三、hbase取数据流程

hbaseclient的操作和存数据类似

服务器操作流程：

regionserver收到get请求后，对当前region进行scan，接着会根据列族对store进行scan，同时会对对应的memstore进行scan；最后找到我们要的数据返回给client。注意：一个storescanner会对应多个storefilescanner，整个过程是一个层级关系。

四、hbase存取优化

检索优化（bloomfilter）：应用bloomfilter来提高随机读的性能，bloomfilter是列族级别的配置

五、hbase api使用

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

详解SQL中Group By的使用教程

1、概述“group by”从字面意义上理解就是根据“by”指定的规则对数据进行分组，所谓的分组就是将一个“数据集”划分成若干个“小区域”，然后针对若干个“小区... [阅读全文]

Spark读取Mysql，Redis，Hbase数据

1、读取Mysql数据 object JdbcRddDemo { def getConn() = { Class.forName("com.m... [阅读全文]

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]

流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]

Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]

在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]

Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]

实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]

DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]

去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]


验证码：

验证码：

HBase数据存取流程

2018年11月20日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论