当前位置：移动技术网 > IT编程>开发语言>Java > HBase海量数据存储

HBase海量数据存储

2019年01月05日 | 移动技术网IT编程 | 我要评论

1.简介

hbase是一个基于hdfs的、分布式的、面向列的非关系型数据库。

hbase的特点

1.海量数据存储，hbase表中的数据能够容纳上百亿行*上百万列。

2.面向列的存储，数据在表中是按照列进行存储的，能够动态的增加列并对列进行各种操作。

3.准实时查询，hbase在海量的数据量下能够接近准实时的查询(百毫秒以内)

4.多版本，hbase中每一列的数据都可以有多个版本。

5.可靠性，hbase中的数据存储于hdfs中且依赖于zookeeper进行master和regionserver的协调管理。

hbase与关系型数据库的区别

1.hbase中的数据类型只有string，而关系型数据库中有char、varchar、int等。

2.hbase中只有普通的增删改查操作，没有表与表之间的连接、子查询等，若想要在hbase中进行复杂的操作则应该使用phoenix。

3.hbase是基于列进行存储的，因此在查询指定列的数据时效率会很高，而关系型数据库是基于行存储，每次查询都要查询整行。

4.hbase适合海量数据存储，而关系型数据库一般一张表不超过500m，否则就要考虑分表操作。

5.hbase中为空的列不占用存储空间，表的设计可以非常稀疏，而关系型数据库中表的设计较谨密。

2.hbase的表结构

*hbase中的表由rowkey、columnfamily、column、timestamp组成。

rowkey

记录的唯一标识，相当于关系型数据库中的主键。

*rowkey最大长度为64kb且按字典顺序进行排序存储。

columnfamily

列簇相当于特定的一个类别，每个列簇下可以有任意数量个列，并且列是动态进行添加的，只在插入数据后存在，hbase在创建表时只需要指定表名和列簇即可。

*一个列簇下的成员有着相同的前缀，使用冒号来对列簇和列名进行分隔。

*一张表中的列簇最好不超过5个。

column

列只有在插入数据后才存在，且列在列簇中是有序的。

*每个列簇下的列数没有限制。

timestamp

hbase中的每个键值对都有一个时间戳，在进行插入时由hbase进行自动赋值。

3.hbase的物理模型

master

1.处理对表的添加、删除、查询等操作。

2.进行regionserver的负载均衡（region与regionserver的分配）

3.在regionserver宕机后负责regionserver上的region转移（通过wal日志）

*master失效仅会导致meta数据和表无法被修改，表中的数据仍然可以进行读取和写入。

regionserver

1.处理对表中数据的添加、删除、修改、查询等操作。

2.维护region并将region中storefile写入到hdfs中。

3.当region中的数据达到一定大小时进行region的切分。

region

1.表中的数据存储在region中，每个region都由regionserver进行管理。

2.每个region都包含memorystore和storefile，memorystore中的数据位于内存，每当memorystore中的数据达到128m时将会生成一个storefile并写入到hdfs中。

3.region中每个列簇对应一个memorystore，可以有多个storefile，当多个storefile的文件大小超过一定时，会进行storefile的合并，将多个storefile文件合并成一个storefile，当storefile中的大小超过一定阀值时，会进行region的切分，由master将新region分配到相应的regionserver中，实现负载均衡。

zookeeper在hbase中的作用

1.保证master的高可用性，当状态为active的master无法提供服务时，会立刻将状态为standby的master切换为active状态。

2.实时监控regionserver集群，当某个regionserver节点无法提供服务时将会通知master，由master进行regionserver上的region转移以及重新进行负载均衡。

3.当hbase集群启动后，master和regionserver会分别向zookeeper进行注册，会在zookeeper中存放hbase的meta表数据，region与regionserver的关系、以及regionserver的访问地址等信息。

*meta表中维护着tablename、rowkey和region的关联关系。

hbase处理读取和写入请求的流程

hbase处理读取请求的过程

1.客户端连接zookeeper，根据tablename和rowkey从meta表中计算出该row对应的region。

2.获取该region所关联的regionserver，并获取regionserver的访问地址。

3.访问regionserver，找到对应的region。

4.如果region的memorystore中有该row则直接进行获取，否则从storefile中进行查询。

hbase处理写入请求的过程

1.客户端连接zookeeper，根据tablename找到其region列表。

2.通过一定算法计算出要写入的region。

3.获取该region所关联的regionserver并进行连接。

4.把数据分别写到hlog和memorystore中。

5.每当memorystore中的大小达到128m时，会生成一个storefile。

6.当多个storefile的文件大小达到一定时，会进行storefile的合并，将多个storefile文件合并成一个storefile，当storefile的文件大小超过一定阈值时，会进行region的切分，由master将新region分配到相应的regionserver中，实现负载均衡。

*在第一次读取或写入时才需要连接zookeeper，会将zookeeper中的相关数据缓存到本地，往后直接从本地进行读取，当zookeeper中的信息发生变化时，再通过通知机制通知客户端进行更新。

hbase在hdfs中的目录

1.tmp目录：当对hbase的表进行创建和删除时，会将表移动到该目录中进行操作。

2.masterprocwals目录：预写日志目录，主要用于存储master的操作日志。

3.wals目录：预写日志目录，主要用于存储regionserver的操作日志。

4.data目录：存储region中的storefile。

5.hbase.id文件：hbase集群的唯一标识。

6.hbase.version文件：hbase集群的版本号。

7.oldwals目录：当wals目录下的日志文件超过一定时间后，会将其移动到oldwals目录中，master会定期进行清理。

4.hbase集群的搭建

1.安装jdk和hadoop

由于hbase是通过java语言编写的，且hbase是基于hdfs的，因此需要安装jdk和hadoop，并配置好java_home环境变量。

由于hdfs一般都以集群的方式运行，因此需要搭建hdfs集群。

*在搭建hdfs集群时，需要相互配置ssh使之互相信任并且开放防火墙相应的端口，或者直接关闭防火墙。

2.安装zookeeper并进行集群的搭建

由于hdfs ha依赖于zookeeper，且hbase也依赖于zookeeper，因此需要安装zookeeper并进行集群的搭建。

3.安装hbase

1.从cdh中下载hbase并进行解压：

2.修改hbase-env.sh配置文件

#设置jdk的安装目录
export java_home=/usr/jdk8/jdk1.8.0_161

#true则使用hbase自带的zk服务,false则使用外部的zk服务.
export hbase_manages_zk=flase

3.修改hbase-site.xml配置文件

  <!-- 指定hbase日志的存放目录 -->  
  <property> 
    <name>hbase.tmp.dir</name>  
    <value>/usr/hbase/hbase-1.2.8/logs</value> 
  </property>  
  <!-- 指定hbase中的数据存储在hdfs中的目录 -->  
  <property> 
    <name>hbase.rootdir</name>  
    <value>hdfs://nameservice:8020/hbase</value> 
  </property>  
  <!-- 设置是否是分布式 -->  
  <property> 
    <name>hbase.cluster.distributed</name>  
    <value>true</value> 
  </property>  
  <!-- 指定hbase使用的zk地址 -->  
  <property> 
    <name>hbase.zookeeper.quorum</name>  
    <value>192.168.1.80:2181,192.168.1.81:2181,192.168.1.82:2181</value> 
  </property>

4.修改regionservers文件，配置充当regionserver的节点

*值可以是主机名或者ip地址

*如果hadoop配置了hdfs ha高可用集群，那么就会有两个namenode和一个nameservice，此时就需要将hdfs的core-site.xml和hdfs-site.xml配置文件复制到hbase的conf目录下，且hbase-site.xml配置文件中的hbase.rootdir配置项的hdfs地址指向nameservice的名称。

5.ntp时间同步

ntp是一个时间服务器，作用是使集群中的各个节点的时间都保持一致。

由于在hbase集群中，zookeeper与hbase对时间的要求较高，如果两个节点之间的时间相差过大时，那么整个集群就会崩溃，因此需要使各个节点的时间都保持一致。

#查看是否安装了ntp服务
rpm -qa|grep ntp

#安装ntp服务
yum install ntp -y

#从ntp服务器中获取时间并同步本地
ntpdate 192.168.1.80

*在实际的应用场景中，可以自己搭建ntp服务器，也可以使用第三方开源的ntp服务器，如阿里等。

使用 “ntpdate ntp服务器地址” 命令从ntp服务器中获取时间并同步本地，一般配合linux的crontab使用，每隔5分钟进行一次时间的同步。

4.启动集群

使用bin目录下的start-hbase.sh命令启动集群，那么会在当前节点中启动一个master和regionsever进程，并通过ssh访问其它节点，启动regionserver进程。

由于hbase的master ha集群是通过zookeeper进行协调的，需要手动在其他节点中启动master，zookeeper能保证当前hbase集群中有且只有一个master处于active状态，当状态为active的master无法正常提供服务时，会将处于standby的master的状态修改为active。

*当hbase集群启动后，可以访问，进入hbase的web监控页面。

5.使用shell操作hbase

使用bin/hbase shell命令进行hbase的shell操作

#创建表
create 'tablename' , 'columnfamily' , 'columnfamily...'

#添加记录
put 'tablename' , 'rowkey' , 'columnfamily:column' , 'value'

#查询记录
get 'tablename' , 'rowkey'

#统计表的记录数
count 'tablename'

#删除记录
deleteall 'tablename' , 'rowkey'

#删除记录的某一列
delete 'tablename' , 'rowkey' ,'columnfamily:column'

#禁用表
disable 'tablename'

#启动表
enable 'tablename'

#查看表是否被禁用
is_disabled 'tablename'

#删除表
drop 'tablename'

#查看表中的所有记录
scan 'tablename'

#查看表中指定列的所有记录
scan 'tablename' , {columns=>'columnfamily:column'}

#检查表是否存在
exists 'tablename'

#查看当前hbase中的表
list

*在删除表时需要禁用表，否则无法删除。

*使用put相同rowkey的一条数据来进行记录的更新，仅会更新列相同的值。

6.使用java操作hbase

1.导入相关依赖

<dependency>
  <groupid>org.apache.hbase</groupid>
  <artifactid>hbase-client</artifactid>
  <version>1.2.8</version>
</dependency>

2.初始化配置

使用hbaseconfiguration的create()静态方法创建一个configuration实例，用于封装环境配置信息。

configuration config = hbaseconfiguration.create();
config.set("hbase.zookeeper.quorum","192.168.1.80,192.168.1.81,192.168.1.82");
config.set("hbase.zookeeper.property.clientport","2181");

*此方法会默认加载classpath下的hbase-site.xml配置文件，如果没有此配置文件则需要手动进行环境的配置。

3.创建hbase连接对象

connection conn = connectionfactory.createconnection(config);

4.进行表的管理

*使用admin类进行hbase表的管理，通过connection实例的getadmin()静态方法返回一个admin实例。

//判断表是否存在
boolean tableexists(tablename);

//遍历hbase中的表定义
htabledescriptor [] listtables();

//遍历hbase中的表名称
tablename [] listtablenames();

//根据表名获取表定义
htabledescriptor gettabledescriptor(tablename);

//创建表
void createtable(htabledescriptor);

//删除表
void deletetable(tablename);

//启用表
void enabletable(tablename);

//禁用表
void disabletable(tablename);

//判断表是否是启用状态
boolean istableenabled(tablename);

//判断表是否是禁用状态
boolean istabledisabled(tablename);

//为表添加列簇
void addcolumn(tablename,hcolumndescriptor);

//删除表中的列簇
void deletecolumn(tablename,byte);

//修改表中的列簇
void modifycolumn(tablename,hcolumndescriptor);

tablename实例用于封装表名称。

htabledescriptor实例用于封装表定义，包括表的名称、表的列簇等。

hcolumndescriptor实例用于封装表的列簇。

5.对表中的数据进行增删改查

使用table类进行表数据的增删改查，通过connection的gettable(tablename)静态方法返回一个table实例。

//判断指定rowkey的数据是否存在
boolean exists(get get);

//根据rowkey获取数据
result get(get get);

//根据多个rowkey获取数据
result [] get(list<get>);

//获取表的扫描器
resultscanner getscanner(scan);

//添加数据
void put(put);

//批量添加数据
void put(list<put>);

//删除数据
void delete(delete);

//批量删除数据
void delete(list<delete>)

使用get实例封装查询参数，使用其构建方法设置rowkey。

使用put实例封装新增和更新参数，使用其构建方法设置rowkey，使用其addcolumn(byte[] family , byte[] qualifier , byte[] value)方法分别指定列簇、列名、列值。

使用delete实例封装删除参数，使用其构建方法设置rowkey。

使用scan实例封装扫描器的查询条件，使用其addfamily(byte[] family)方法设置扫描的列簇，使用其addcolumn(byte[] family , byte[] qualifier)方法分别指定要扫描的列簇和列名。

*在进行表的增删改查时，方法参数大多都是字节数组类型，可以使用hbase java提供的bytes工具类进行字符串和字节数组之间的转换。

*在进行查询操作时，会返回result实例，result实例包含了一个rowkey的所有键值对（cell，不区分列簇），可以通过result实例的listcells()方法获取其包含的所有cell，借助cellutil工具类获取cell实例中对应的rowkey、family、qualifier、value等属性信息。

*在使用getscanner扫描时，返回的resultscanner接口继承iterable接口，其泛型是result，因此可以理解成resultscanner是result的一个集合。

6.完整的hbaseutil

/**
 * @auther: zhuanghaotang
 * @date: 2018/11/26 11:40
 * @description:
 */
public class hbaseutils {

    private static final logger logger = loggerfactory.getlogger(hbaseutils.class);

    /**
     * zk集群地址
     */
    private static final string zk_cluster_hosts = "192.168.1.80,192.168.1.81,192.168.1.82";

    /**
     * zk端口
     */
    private static final string zk_cluster_port = "2181";

    /**
     * hbase全局连接
     */
    private static connection connection;

    static {
        //默认加载classpath下hbase-site.xml文件
        configuration configuration = hbaseconfiguration.create();
        configuration.set("hbase.zookeeper.quorum", zk_cluster_hosts);
        configuration.set("hbase.zookeeper.property.clientport", zk_cluster_port);
        try {
            connection = connectionfactory.createconnection(configuration);
        } catch (exception e) {
            logger.info("初始化hbase连接失败：", e);
        }
    }

    /**
     * 返回连接
     */
    public static connection getconnection() {
        return connection;
    }

    /**
     * 创建表
     */
    public static void createtable(string tablename, string... families) throws exception {
        admin admin = connection.getadmin();
        if (admin.tableexists(tablename.valueof(tablename))) {
            throw new unsupportedoperationexception("tablename " + tablename + " is already exists");
        }
        htabledescriptor descriptor = new htabledescriptor(tablename.valueof(tablename));
        for (string family : families)
            descriptor.addfamily(new hcolumndescriptor(family));
        admin.createtable(descriptor);
    }

    /**
     * 删除表
     */
    public static void deletetable(string tablename) throws exception {
        admin admin = connection.getadmin();
        if (admin.tableexists(tablename.valueof(tablename))) {
            admin.disabletable(tablename.valueof(tablename));
            admin.deletetable(tablename.valueof(tablename));
        }
    }

    /**
     * 获取所有表名称
     */
    public static tablename[] gettablenamelist() throws exception {
        admin admin = connection.getadmin();
        return admin.listtablenames();
    }

    /**
     * 获取所有表定义
     */
    public static htabledescriptor[] gettabledescriptorlist() throws exception {
        admin admin = connection.getadmin();
        return admin.listtables();
    }

    /**
     * 为表添加列簇
     */
    public static void addfamily(string tablename, string family) throws exception {
        admin admin = connection.getadmin();
        if (!admin.tableexists(tablename.valueof(tablename))) {
            throw new unsupportedoperationexception("tablename " + tablename + " is not exists");
        }
        admin.addcolumn(tablename.valueof(tablename), new hcolumndescriptor(family));
    }

    /**
     * 删除表中指定的列簇
     */
    public static void deletefamily(string tablename, string family) throws exception {
        admin admin = connection.getadmin();
        admin.deletecolumn(tablename.valueof(tablename), bytes.tobytes(family));
    }

    /**
     * 为表添加一条数据
     */
    public static void put(string tablename, string rowkey, string family, map<string, string> values) throws exception {
        table table = connection.gettable(tablename.valueof(tablename));
        put put = new put(bytes.tobytes(rowkey));
        for (map.entry<string, string> entry : values.entryset())
            put.addcolumn(bytes.tobytes(family), bytes.tobytes(entry.getkey()), bytes.tobytes(entry.getvalue()));
        table.put(put);
    }

    /**
     * 批量为表添加数据
     */
    public static void batchput(string tablename, string family, map<string, map<string, string>> values) throws exception {
        table table = connection.gettable(tablename.valueof(tablename));
        list<put> puts = new arraylist<>();
        for (map.entry<string, map<string, string>> entry : values.entryset()) {
            put put = new put(bytes.tobytes(entry.getkey()));
            for (map.entry<string, string> subentry : entry.getvalue().entryset())
                put.addcolumn(bytes.tobytes(family), bytes.tobytes(subentry.getkey()), bytes.tobytes(subentry.getvalue()));
            puts.add(put);
        }
        table.put(puts);
    }

    /**
     * 删除rowkey中的某列
     */
    public static void deletecolumn(string tablename, string rowkey, string family, string qualifier) throws exception {
        table table = connection.gettable(tablename.valueof(tablename));
        delete delete = new delete(bytes.tobytes(rowkey));
        delete.addcolumn(bytes.tobytes(family), bytes.tobytes(qualifier));
        table.delete(delete);
    }

    /**
     * 删除rowkey
     */
    public static void delete(string tablename, string rowkey) throws exception {
        table table = connection.gettable(tablename.valueof(tablename));
        table.delete(new delete(bytes.tobytes(rowkey)));
    }

    /**
     * 批量删除rowkey
     */
    public static void batchdelete(string tablename, string... rowkeys) throws exception {
        table table = connection.gettable(tablename.valueof(tablename));
        list<delete> deletes = new arraylist<>();
        for (string rowkey : rowkeys)
            deletes.add(new delete(bytes.tobytes(rowkey)));
        table.delete(deletes);
    }

    /**
     * 根据rowkey获取数据
     */
    public static map<string, string> get(string tablename, string rowkey) throws exception {
        table table = connection.gettable(tablename.valueof(tablename));
        result result = table.get(new get(bytes.tobytes(rowkey)));
        list<cell> cells = result.listcells();
        map<string, string> cellsmap = new hashmap<>();
        for (cell cell : cells) {
            cellsmap.put(bytes.tostring(cellutil.clonequalifier(cell)), bytes.tostring(cellutil.clonevalue(cell)));
        }
        return cellsmap;
    }

    /**
     * 获取全表数据
     */
    public static map<string, map<string, string>> scan(string tablename) throws exception {
        table table = connection.gettable(tablename.valueof(tablename));
        resultscanner resultscanner = table.getscanner(new scan());
        return getresult(resultscanner);
    }

    /**
     * 获取某列数据
     */
    public static map<string, map<string, string>> scan(string tablename, string family, string qualifier) throws exception {
        table table = connection.gettable(tablename.valueof(tablename));
        scan scan = new scan();
        scan.addcolumn(bytes.tobytes(family), bytes.tobytes(qualifier));
        resultscanner resultscanner = table.getscanner(scan);
        return getresult(resultscanner);
    }

    private static map<string, map<string, string>> getresult(resultscanner resultscanner) {
        map<string, map<string, string>> resultmap = new hashmap<>();
        for (result result : resultscanner) {
            list<cell> cells = result.listcells();
            map<string, string> cellsmap = new hashmap<>();
            for (cell cell : cells)
                cellsmap.put(bytes.tostring(cellutil.clonequalifier(cell)), bytes.tostring(cellutil.clonevalue(cell)));
            resultmap.put(bytes.tostring(result.getrow()), cellsmap);
        }
        return resultmap;
    }

}

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

HashMap、Hashtable、ConcurrentHashMap三者间的异同

Hashtable 和 HashMap 的区别与联系1.两者都继承与map接口，所以两者的遍历方式大同小异2.H... [阅读全文]
等保测评--计算环境之终端设备安全

信息安全等级保护，是对信息和信息载体按照重要性等级分级别进行保护的一种工作，在中国、美国等很多国家都存在的一种信... [阅读全文]
解决RecycleView 中Item包含Edittext时，滑动view复用导致数据错乱的问题

解决RecycleView 中Item包含Edittext时，滑动导致数据错乱的问题一言不合就上代码：overr... [阅读全文]
[每日一练] Java 2020.7.28

1.关于以下application,说法正确是什么？public class Test { static ... [阅读全文]
学习多线程造成线程不同步的原因数组实现简单的栈三

java代码package com.baigu.demo1.stack;public class TestSta... [阅读全文]
多线程、同步工作原理、死锁案例、Lock接口、线程的生命周期的讲解及实现

多线程进程正在运行的程序，称为进程，一个应用程序在内存中占用的资源才是进程线程线程:是进程中的某-功能开启了一条... [阅读全文]
《Java核心技术卷1：基础知识》CH14-并发

《Java核心技术卷1：基础知识》CH14-并发 [阅读全文]
vue表单数据AES加密传输

前端用的是vue框架，后端用的是springboot，话不多说，上来直接撸代码。一、前端1. 先安装前端加密JS... [阅读全文]
基于SpringSecurity实现图片验证码登录功能

图片验证码登录验证1.验证码流程详解2.验证码生成3.验证码校验1.验证码流程详解验证码流程图解析：客户端打开登... [阅读全文]
Linux系统下ssh使用总结

转自：https://www.cnblogs.com/kevingrace/p/6110842.html-bas... [阅读全文]

网友评论


验证码：