HBase 二级索引与Coprocessor协处理器_其他数据库

coprocessor简介

(1)实现目的

hbase无法轻易建立“二级索引”；
执行求和、计数、排序等操作比较困难，必须通过mapreduce/spark实现，对于简单的统计或聚合计算时，可能会因为网络与io开销大而带来性能问题。

(2)灵感来源

灵感来源于bigtable的协处理器，包含如下特性：

每个表服务器的任意子表都可以运行代码；
客户端能够直接访问数据表的行，多行读写会自动分片成多个并行的rpc调用。

(3)提供接口

regionobserver：提供客户端的数据操纵事件钩子：get、put、delete、scan等；
walobserver：提供wal相关操作钩子；
masterobserver：提供ddl-类型的操作钩子。如创建、删除、修改数据表等；
endpoint：终端是动态rpc插件的接口，它的实现代码被安装在服务器端，能够通过hbase rpc调用唤醒。

(4)应用范围

通过使用regionobserver接口可以实现二级索引的创建和维护；
通过使用endpoint接口，在对数据进行简单排序和sum，count等统计操作时，能够极大提高性能。

endpoint服务端实现

　　在传统关系型数据库里面，可以随时的对某列进行求和sum，但是目前hbase目前所提供的接口，直接求和是比较困难的，所以先编写好服务端代码，并加载到对应的table上，加载协处理器有几种方法，可以通过htabledescriptor的addcoprocessor方法直接加载，同理也可以通过removecoprocessor方法卸载协处理器。

　　endpoint协处理器类似传统数据库的存储过程，客户端调用endpoint协处理器执行一段server端代码，并将server端代码的结果返回给client进一步处理，最常见的用法就是进行聚合操作。举个例子说明：如果没有协处理器，当用户需要找出一张表中的最大数据即max聚合操作，必须进行全表扫描，客户端代码遍历扫描结果并执行求max操作，这样的方法无法利用底层集群的并发能力，而将所有计算都集中到client端统一执行，效率非常低。但是使用coprocessor，用户将求max的代码部署到hbase server端，hbase将利用底层cluster的多个节点并行执行求max的操作即在每个region范围内执行求最大值逻辑，将每个region的最大值在region server端计算出，仅仅将该max值返回给客户端。客户端进一步将多个region的max进一步处理而找到其中的max，这样整体执行效率提高很多。但是一定要注意的是coprocessor一定要写正确，否则导致regionserver宕机。

protobuf定义

如前所述，客户端和服务端之间需要进行rpc通信，所以两者间需要确定接口，当前版本的hbase的协处理器是通过google protobuf协议来实现数据交换的，所以需要通过protobuf来定义接口。
如下所示：

option java_package = "com.my.hbase.protobuf.generated";
option java_outer_classname = "aggregateprotos";
option java_generic_services = true;
option java_generate_equals_and_hash = true;
option optimize_for = speed;

import "client.proto";

message aggregaterequest {
    required string interpreter_class_name = 1;
    required scan scan = 2;
    optional bytes  interpreter_specific_bytes = 3;
}

message aggregateresponse {
    repeated bytes first_part = 1;
    optional bytes second_part = 2;
}

service aggregateservice {
    rpc getmax (aggregaterequest) returns (aggregateresponse);
    rpc getmin (aggregaterequest) returns (aggregateresponse);
    rpc getsum (aggregaterequest) returns (aggregateresponse);
    rpc getrownum (aggregaterequest) returns (aggregateresponse);
    rpc getavg (aggregaterequest) returns (aggregateresponse);
    rpc getstd (aggregaterequest) returns (aggregateresponse);
    rpc getmedian (aggregaterequest) returns (aggregateresponse);
}

　　可以看到这里定义7个聚合服务rpc，名字分别叫做getmax、getmin、getsum等，本文通过getsum进行举例，其他的聚合rpc也是类似的内部实现。rpc有一个入口参数，用消息aggregaterequest表示；rpc的返回值用消息aggregateresponse表示。service是一个抽象概念，rpc的server端可以看作一个用来提供服务的service。在hbase coprocessor中service就是server端需要提供的endpoint coprocessor服务，主要用来给hbase的client提供服务。aggregateservice.java是由protobuf软件通过终端命令“protoc filename.proto--java_out=out_dir”自动生成的，其作用是将.proto文件定义的消息结构以及服务转换成对应接口的rpc实现，其中包括如何构建request消息和response响应以及消息包含的内容的处理方式，并且将aggregateservice包装成一个抽象类，具体的服务以类的方法的形式提供。aggregateservice.java定义client端与server端通信的协议，代码中包含请求信息结构aggregaterequest、响应信息结构aggregateresponse、提供的服务种类aggregateservice，其中aggregaterequest中的interpreter_class_name指的是column interpreter的类名，此类的作用在于将数据格式从存储类型解析成所需类型。

服务端的架构

　　首先，endpoint coprocessor是一个protobuf service的实现，因此需要它必须继承某个protobufservice。我们在前面已经通过proto文件定义service，命名为aggregateservice，因此server端代码需要重载该类，其次作为hbase的协处理器，endpoint 还必须实现hbase定义的协处理器协议，用java的接口来定义。具体来说就是coprocessorservice和coprocessor，这些hbase接口负责将协处理器和hbase 的regionserver等实例联系起来以便协同工作。coprocessor接口定义两个接口函数：start和stop。
　　加载coprocessor之后region打开的时候被regionserver自动加载，并会调用器start 接口完成初始化工作。一般情况该接口函数仅仅需要将协处理器的运行上下文环境变量coprocessorenvironment保存到本地即可。
　　coprocessorenvironment保存协处理器的运行环境，每个协处理器都是在一个regionserver进程内运行并隶属于某个region。通过该变量获取region的实例等 hbase运行时环境对象。
　　coprocessor接口还定义stop()接口函数，该函数在region被关闭时调用，用来进行协处理器的清理工作。本文里我们没有进行任何清理工作，因此该函数什么也不干。
　　我们的协处理器还需要实现coprocessorservice接口。该接口仅仅定义一个接口函数 getservice()。我们仅需要将本实例返回即可。hbase的region server在接收到客户端的调用请求时，将调用该接口获取实现rpcservice的实例，因此本函数一般情况下就是返回自身实例即可。
　　完成以上三个接口函数之后，endpoint的框架代码就已完成。每个endpoint协处理器都必须实现这些框架代码而且写法雷同。

　　server端的代码就是一个protobuf rpc的service实现，即通过protobuf提供的某种服务。其开发内容主要包括：

实现coprocessor的基本框架代码
实现服务的rpc具体代码

endpoint 协处理的基本框架

endpoint 是一个server端service的具体实现，其实现有一些框架代码，这些框架代码与具体的业务需求逻辑无关。仅仅是为了和hbase运行时环境协同工作而必须遵循和完成的一些粘合代码。因此多数情况下仅仅需要从一个例子程序拷贝过来并进行命名修改即可。不过我们还是完整地对这些粘合代码进行粗略的讲解以便更好地理解代码。

public service getservice() {
     return this;
}

public void start(coprocessorenvironment env) throws ioexception {
     if(env instanceof regioncoprocessorenvironment) {
         this.env = (regioncoprocessorenvironment)env;
     } else {
         throw new coprocessorexception("must be loaded on a table region!");
     }
}

public void stop(coprocessorenvironment env) throws ioexception {
}

endpoint协处理器真正的业务代码都在每一个rpc函数的具体实现中。
在本文中，我们的endpoint协处理器仅提供一个rpc函数即getsum。我将分别介绍编写该函数的几个主要工作：了解函数的定义，参数列表；处理入口参数；实现业务逻辑；设置返回参数。

public void getsum(rpccontroller controller, aggregaterequest request, rpccallbackdone) {
        aggregateresponse response = null;
        regionscanner scanner = null;
        long sum = 0l;
        try {
            columninterpreter ignored = this.constructcolumninterpreterfromrequest(request);
            object sumval = null;
            scan scan = protobufutil.toscan(request.getscan());
            scanner = this.env.getregion().getscanner(scan);
            byte[] colfamily = scan.getfamilies()[0];
            navigableset qualifiers = (navigableset) scan.getfamilymap().get(colfamily);
            byte[] qualifier = null;
            if (qualifiers != null && !qualifiers.isempty()) {
                qualifier = (byte[]) qualifiers.pollfirst();
            }

            arraylist results = new arraylist();
            boolean hasmorerows = false;

            do {
                hasmorerows = scanner.next(results);
                int listsize = results.size();

                for (int i = 0; i < listsize; ++i) {
                    //取出列值
                    object temp = ignored.getvalue(colfamily, qualifier,
                            (cell) results.get(i));
                    if (temp != null) {
                        sumval = ignored.add(sumval, ignored.casttoreturntype(temp));
                    }
                }

                results.clear();
            } while (hasmorerows);

            if (sumval != null) {
                response = aggregateresponse.newbuilder().addfirstpart(
                        ignored.getprotoforpromotedtype(sumval).tobytestring()).build();
            }
        } catch (ioexception var27) {
            responseconverter.setcontrollerexception(controller, var27);
        } finally {
            if (scanner != null) {
                try {
                    scanner.close();
                } catch (ioexception var26) {
                    ;
                }
            }

        }

        log.debug("sum from this region is " +
                this.env.getregion().getregioninfo().getregionnameasstring() + ": " + sum);
        done.run(response);
    }

endpoint类比于数据库的存储过程，其触发服务端的基于region的同步运行再将各个结果在客户端搜集后归并计算。特点类似于传统的mapreduce框架，服务端map客户端reduce。

endpoint客户端实现

hbase提供客户端java包org.apache.hadoop.hbase.client.htable，提供以下三种方法来调用协处理器提供的服务：

coprocessorservice(byte[])
coprocessorservice(class, byte[], byte[],batch.call),
coprocessorservice(class, byte[], byte[],batch.call, batch.callback)

　　该方法采用rowkey指定region。这是因为hbase客户端很少会直接操作region，一般不需要知道region的名字；况且在hbase中region名会随时改变，所以用rowkey来指定region是最合理的方式。使用rowkey可以指定唯一的一个region，如果给定的rowkey并不存在，只要在某个region的rowkey范围内依然用来指定该region。比如region 1处理[row1, row100]这个区间内的数据，则rowkey=row1就由region 1来负责处理，换句话说我们可以用row1来指定region 1，无论rowkey等于”row1”的记录是否存在。coprocessorservice方法返回类型为coprocessorrpcchannel的对象，该 rpc通道连接到由rowkey指定的region上面，通过此通道可以调用该region上面部署的协处理器rpc。

　　有时候客户端需要调用多个 region上的同一个协处理器，比如需要统计整个table的sum，在这种情况下，需要所有的region都参与进来，分别统计自身region内部的sum并返回客户端，最终客户端将所有region的返回结果汇总，就可以得到整张表的sum。

　　这意味着该客户端同时和多个region进行批处理交互。一个可行的方法是，收集每个 region的startkey，然后循环调用第一种coprocessorservice方法：用每一个region的startkey 作为入口参数，获得rpc通道创建stub对象，进而逐一调用每个region上的协处理器rpc。这种做法需要写很多的代码，为此hbase提供两种更加简单的 coprocessorservice方法来处理多个region的协处理器调用。先来看第一种方法 coprocessorservice(class, byte[],byte[],batch.call)

　　该方法有 4 个入口参数。第一个参数是实现rpc的service 类，即前文中的aggregateservice类。通过它，hbase就可以找到相应的部署在region上的协处理器，一个region上可以部署多个协处理器，客户端必须通过指定service类来区分究竟需要调用哪个协处理器提供的服务。
　　要调用哪些region上的服务则由startkey和endkey来确定，通过 rowkey范围即可确定多个 region。为此，coprocessorservice方法的第二个和第三个参数分别是 startkey和endkey，凡是落在[startkey，endkey]区间内的region都会参与本次调用。
　　第四个参数是接口类batch.call。它定义了如何调用协处理器，用户通过重载该接口的call()方法来实现客户端的逻辑。在call()方法内，可以调用rpc，并对返回值进行任意处理。即前文代码清单1中所做的事情。coprocessorservice将负责对每个 region调用这个call()方法。
　　coprocessorservice方法的返回值是一个map类型的集合。该集合的key是region名字，value是batch.call.call方法的返回值。该集合可以看作是所有region的协处理器 rpc 返回的结果集。客户端代码可以遍历该集合对所有的结果进行汇总处理。
　　这种coprocessorservice方法的大体工作流程如下。首先它分析startkey和 endkey，找到该区间内的所有region，假设存放在regionlist中。然后，遍历regionlist，为每一个region调用batch.call，在该接口内，用户定义具体的rpc调用逻辑。最后coprocessorservice将所有batch.call.call()的返回值加入结果集合并返回。

　　coprocessorservice的第三种方法比第二个方法多了一个参数callback。coprocessorservice第二个方法内部使用hbase自带的缺省callback，该缺省 callback将每个region的返回结果都添加到一个map类型的结果集中，并将该集合作为coprocessorservice方法的返回值。

　　hbase 提供第三种coprocessorservice方法允许用户定义callback行为，coprocessorservice 会为每一个rpc返回结果调用该callback，用户可以在callback 中执行需要的逻辑，比如执行sum累加。用第二种方法的情况下，每个region协处理器rpc的返回结果先放入一个列表，所有的 region 都返回后，用户代码再从该列表中取出每一个结果进行累加；用第三种方法，直接在callback中进行累加，省掉了创建结果集合和遍历该集合的开销，效率会更高一些。
　　因此我们只需要额外定义一个callback即可，callback是一个batch.callback接口类，用户需要重载其update方法。

public s sum(final htable table, final columninterpreter<r, s, p, q, t> ci,final scan scan)throws throwable {

final aggregaterequest requestarg = validateargandgetpb(scan, ci, false);

class sumcallback implements batch.callback  {

s sumval = null;

public s getsumresult() {
  return sumval;
}

@override
public synchronized void update(byte[] region, byte[] row, s result) {
  sumval = ci.add(sumval, result);
}}

sumcallback sumcallback = new sumcallback();
table.coprocessorservice(aggregateservice.class, scan.getstartrow(), scan.getstoprow(),
      new batch.call<aggregateservice, s>() {
        @override
        public s call(aggregateservice instance) throws ioexception {
          serverrpccontroller controller = new serverrpccontroller();
          blockingrpccallback<aggregateresponse> rpccallback =
                  new blockingrpccallback<aggregateresponse>();
            //rpc 调用
          instance.getsum(controller, requestarg, rpccallback);
          aggregateresponse response = rpccallback.get();
          if (controller.failedonexception()) {
            throw controller.getfailedon();
          }
          if (response.getfirstpartcount() == 0) {
            return null;
          }
          bytestring b = response.getfirstpart(0);
          t t = protobufutil.getparsedgenericinstance(ci.getclass(), 4, b);
          s s = ci.getpromotedvaluefromproto(t);
          return s;
        }
      }, sumcallback);
 return sumcallback.getsumresult();

observer实现二级索引

observer类似于传统数据库中的触发器，当发生某些事件的时候这类协处理器会被 server 端调用。observer coprocessor是一些散布在hbase server端代码的 hook钩子，在固定的事件发生时被调用。比如：put操作之前有钩子函数preput，该函数在pu 操作执行前会被region server调用；在put操作之后则有postput 钩子函数。

regionobserver工作原理
regionobserver提供客户端的数据操纵事件钩子，get、put、delete、scan，使用此功能能够解决主表以及多个索引表之间数据一致性的问题

客户端发出put请求；
该请求被分派给合适的regionserver和region；
coprocessorhost拦截该请求，然后在该表上登记的每个 regionobserver 上调用preput()；
如果没有被preget()拦截，该请求继续送到 region，然后进行处理；
region产生的结果再次被coprocessorhost拦截，调用postget()；
假如没有postget()拦截该响应，最终结果被返回给客户端；

　　如上图所示，hbase可以根据rowkey很快的检索到数据，但是如果根据column检索数据，首先要根据rowkey减小范围，再通过列过滤器去过滤出数据，如果使用二级索引，可以先查基于column的索引表，获取到rowkey后再快速的检索到数据。

　　如图所示首先继承baseregionobserver类，重写postput，postdelete方法，在postput方法体内中写put索引表数据的代码，在postdelete方法里面写delete索引表数据，这样可以保持数据的一致性。
　　在scan表的时候首先判断是否先查索引表，如果不查索引直接scan主表，如果走索引表通过索引表获取主表的rowkey再去查主表。
　　使用elastic search建立二级索引也是一样。
　　我们在同一个主机集群上同时建立了hbase集群和elastic search集群，存储到hbase的数据必须实时地同步到elastic search。而恰好hbase和elastic search都没有更新的概念，我们的需求可以简化为两步：