当前位置：移动技术网 > IT编程>数据库>其他数据库 > hbase 预分区与自动分区

hbase 预分区与自动分区

2019年03月29日 | 移动技术网IT编程 | 我要评论

我们知道，hbase在创建表的时候，会自动为表分配一个region，
当一个region过大达到默认的阈值时（默认10gb大小）,hbase中该region将会进行split，分裂为2个region，以此类推。
表在进行split的时候，会耗费大量的资源，频繁的分区对hbase的性能有巨大的影响。
所以，hbase提供了预分区功能，即用户可以在创建表的时候对表按照一定的规则分区。

假设我们初始给它10个region，那么导入大量数据的时候，就会均衡到10个里面，显然比1个region要好很多。
可是我们应该创建多少个region呢？显然没有具体答案，要结合业务，根据表的rowkey进行设计。

一．强制拆分
预分区方法：
1.hbase shell 预分区
建立分区前，要先了解表的rowkey格式，rowkey为：两位随机数+时间戳+客户id
两位随机数的范围从00-99，划分范围：小于10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,90+
hbase(main):001:0> create 'log1', 'cf1', splits => ['10','20','30','40','50','60','70','80','90']

启动webui
vi hbase-site.xml
添加
<property>
<name>hbase.master.info.port</name>
<value>60010</value>
</property>

浏览器中：
http://www.lhsxpumps.com/_h201:60010

通过配置文件加载
[hadoop@h201 ~]$ cat rs.txt
10
20
30
40
50
60
70
80
90
hbase(main):003:0> create 'log2', 'cf1', splits_file =>'/home/hadoop/rs.txt'

2.hbase api 预分区

import java.io.ioexception;
import org.apache.hadoop.conf.configuration;
import org.apache.hadoop.hbase.client.hbaseadmin;
import org.apache.hadoop.hbase.hbaseconfiguration;
import org.apache.hadoop.hbase.hcolumndescriptor;
import org.apache.hadoop.hbase.htabledescriptor;
import org.apache.hadoop.hbase.tablename;
import org.apache.hadoop.hbase.client.admin;
import org.apache.hadoop.hbase.client.connection;
import org.apache.hadoop.hbase.client.connectionfactory;
import org.apache.hadoop.hbase.util.bytes;

public class cp {
    public static void main(string[] args) {
       hbaseconfiguration config = new hbaseconfiguration();
       config.set("hbase.zookeeper.quorum", "h201,h202,h203");
       string tablename = new string("ctest1");
   try{
      hbaseadmin admin = new hbaseadmin(config);
        if (admin.tableexists(tablename)) {
            admin.disabletable(tablename);
            admin.deletetable(tablename);
        }

        htabledescriptor tabledesc = new htabledescriptor(tablename);
        tabledesc.addfamily(new hcolumndescriptor("cf1"));
       
        byte[][] splitkeys = {
            bytes.tobytes("10"),
            bytes.tobytes("20"),
            bytes.tobytes("30")
        };

        admin.createtable(tabledesc, splitkeys);
        admin.close();
      }catch(ioexception e) {
            e.printstacktrace();
        }
    }
}

验证：
webui查看
ctest1有4个预分区

====================================================

二．自动拆分（auto splitting）
1.
0.94 版本之前采用的是 constantsizeregionsplitpolicy 策略。
这个策略非常简单，从名字上就可以看出这个策略就是按照固定大小来拆分region。它唯一用到的参数是： hbase.hregion.max.filesize, 默认值是 10g, 也就是当 region 的大小达到 10g 的时候, 会自动拆分成两个 region.

2.
0.94 版本之后，有了 increasingtoupperboundregionsplitpolicy 策略。并且默认使用的这种策略。这种策略从名字上就可以看出是限制不断增长的文件尺寸的策略。
这种策略使用的最大store file size依据 min(r^2 * “hbase.hregion.memstore.flush.size”, “hbase.hregion.max.filesize”)，r代表同一台region server节点上的region的个数。比如，在默认memstore flush size为128mb且默认的max store size为10g时。（r为region的个数）
第一次拆分大小为：min(10g，1*1*128m)=128m
第二次拆分大小为：min(10g，3*3*128m)=1152m
第三次拆分大小为：min(10g，5*5*128m)=3200m
第四次拆分大小为：min(10g，7*7*128m)=6272m
第五次拆分大小为：min(10g，9*9*128m)=10g
第五次拆分大小为：min(10g，11*11*128m)=10g

可以看到，只有在第四次之后的拆分大小才为10g

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]
字符串相似度处理函数

oracle里面查比如存储过程里面与表SALES有关jobs: SELECT * FROM (SELECT a.name,upper(b.what)AS... [阅读全文]
如何在 HBase Shell 命令行正常查看十六进制编码的中文？哈哈~

今天比较开心，只想哈哈~哈哈哈~ 啥也不多说了，直接看示例吧！绝对比我口才好~ 哈哈！Get到了吗？好意思不帮我分享嘛~哈哈~ 转载请注明出处！欢迎关注... [阅读全文]
一小时搭建实时数据分析平台

实时数据分析门槛较高，我们如何用极少的开发工作就完成实时数据平台的搭建，做出炫酷的图表呢？如何快速的搭建实时数据分析平台，首先我们需要实时数据的接入端... [阅读全文]
Kylin on Parquet 介绍和快速上手

Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟，但是存在着一定的局限性。因此，Kyligence 推出了 K... [阅读全文]

网友评论


验证码：

hbase 预分区与自动分区

2019年03月29日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论