当前位置：移动技术网 > IT编程>数据库>其他数据库 > Kafka单线程Consumer及参数详解

Kafka单线程Consumer及参数详解

2019年08月16日 | 移动技术网IT编程 | 我要评论

请使用0.9以后的版本：

示例代码

 properties props = new properties();
        props.put("bootstrap.servers", "kafka01:9092，kafka02:9092");
        props.put("group.id", "test");
        props.put("enable.auto.commit", "true");
        props.put("auto.commit.interval.ms", "1000");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.stringdeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.stringdeserializer");
        
        props.put("auto.offset.reset","earliest");
        
        kafkaconsumer<string, string> consumer = new kafkaconsumer<>(props);
        consumer.subscribe(arrays.aslist("foo", "bar"));
      try{  
        while (true) {
            consumerrecords<string, string> records = consumer.poll(1000);
            for (consumerrecord<string, string> record : records) {
                system.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
            }
         }
        }finally{
          consumer.close();
        }

1、只需要配置kafka的server groupid autocommit 序列化 autooffsetreset(其中 bootstrap.server group.id key.deserializer value.deserializer 必须指定);

2、用这些properties构建consumer对象(kafkaconsumer还有其他构造，可以把序列化传进去);

3、subscribe订阅topic列表（可以用正则订阅pattern.compile("kafka.*")

使用正则必须指定一个listener subscribe(pattern pattern, consumerrebalancelistener listener)）; 可以重写这个接口来实现分区变更时的逻辑。如果设置了enable.auto.commit = true 就不用理会这个逻辑。

4、然后循环poll消息(这里的1000是超时设定，如果没有很多数据，也就等一秒);

5、处理消息（打印了offset key value 这里写处理逻辑）。

6、关闭kafkaconsumer（可以传一个timeout值等待秒数默认是30）。

参数详解

bootstrap.server(最好用主机名不用ip kafka内部用的主机名除非自己配置了ip)

deserializer 反序列化consumer从broker端获取的是字节数组，还原回对象类型。

默认有十几种：stringdeserializer longdeserializer doubledeserializer。。

也可以自定义：定义serializer格式创建自定义deserializer类实现deserializer 接口重写逻辑

除了四个必传的 bootstrap.server group.id key.deserializer value.deserializer

还有session.timeout.ms "coordinator检测失败的时间"

是检测consumer挂掉的时间为了可以及时的rebalance 默认是10秒可以设置更小的值避免消息延迟。

max.poll.interval.ms "consumer处理逻辑最大时间"

处理逻辑比较复杂的时候可以设置这个值避免造成不必要的 rebalance ，因为两次poll时间超过了这个参数，kafka认为这个consumer已经跟不上了，会踢出组，而且不能提交offset，就会重复消费。默认是5分钟。

auto.offset.reset "无位移或者位移越界时kafka的应对策略"

所以如果启动了一个group从头消费成功提交位移后重启后还是接着消费这个参数无效

所以3个值的解释是：

earliset 当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，从最早的位移消费

latest 当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，消费新产生的该分区下的数据 none topic各分区都存在已提交的offset时，从offset后开始消费；只要有一个分区不存在已提交的offset，则抛出异常

（注意kafka-0.10.1.x版本之前: auto.offset.reset 的值为smallest,和,largest.(offest保存在zk中) 、

我们这是说的是新版本：kafka-0.10.1.x版本之后: auto.offset.reset 的值更改为:earliest,latest,和none (offest保存在kafka的一个特殊的topic名为:__consumer_offsets里面)）

enable.auto.commit 是否自动提交位移

true 自动提交 false需要用户手动提交有只处理一次需要的最近设置为false自己控制。

fetch.max.bytes consumer单次获取最大字节数

max.poll.records 单次poll返回的最大消息数

默认500条如果消费很轻量可以适当提高这个值增加消费速度。

hearbeat.interval.ms consumer其他组员感知rabalance的时间

该值必须小于 session.timeout.ms 如果检测到 consumer挂掉也就根本无法感知rabalance了

connections.max.idle.ms 定期关闭连接的时间

默认是9分钟可以设置为-1 永不关闭

更多实时计算，kafka等相关技术博文，欢迎关注实时流式计算

file

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]
字符串相似度处理函数

oracle里面查比如存储过程里面与表SALES有关jobs: SELECT * FROM (SELECT a.name,upper(b.what)AS... [阅读全文]
如何在 HBase Shell 命令行正常查看十六进制编码的中文？哈哈~

今天比较开心，只想哈哈~哈哈哈~ 啥也不多说了，直接看示例吧！绝对比我口才好~ 哈哈！Get到了吗？好意思不帮我分享嘛~哈哈~ 转载请注明出处！欢迎关注... [阅读全文]
一小时搭建实时数据分析平台

实时数据分析门槛较高，我们如何用极少的开发工作就完成实时数据平台的搭建，做出炫酷的图表呢？如何快速的搭建实时数据分析平台，首先我们需要实时数据的接入端... [阅读全文]
Kylin on Parquet 介绍和快速上手

Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟，但是存在着一定的局限性。因此，Kyligence 推出了 K... [阅读全文]

网友评论


验证码：