当前位置：移动技术网 > IT编程>开发语言>Java > spark streaming中维护kafka偏移量到外部介质

spark streaming中维护kafka偏移量到外部介质

2019年04月04日 | 移动技术网IT编程 | 我要评论

在线电视网站,总裁梁子结大了,天海翼ol痴汉电车

spark streaming中维护kafka偏移量到外部介质

以kafka偏移量维护到redis为例。

redis存储格式

使用的数据结构为string，其中key为topic:partition，value为offset。

例如bobo这个topic下有3个分区，则key-value结构如下：

bobo:0的偏移量为x
bobo:1的偏移量为y
bobo:2的偏移量为z

消费时指定offset

主要是如下两个方法：

createkafkastream()创建kakfa流
getoffsets()从redis中获取offsets

/**
  * kakfa参数
  */
private val kafkaparams = map[string, object](
  "bootstrap.servers" -> "crpprdap25:6667,crpprdap26:6667,crpprdap27:6667",
  "key.deserializer" -> classof[stringdeserializer],
  "value.deserializer" -> classof[stringdeserializer],
  "group.id" -> "use_a_separate_group_id_for_each_stream",
  // 注意这里是none。
  "auto.offset.reset" -> "none",
  "enable.auto.commit" -> (false: java.lang.boolean)
)

// `bobo`topic下有3个分区
private val topicpartitions = map[string, int]("bobo" -> 3)

// 从redis中获取offsets
def getoffsets: map[topicpartition, long] = {
  val jedis = internalredisclient.getresource

  // 设置每个分区起始的offset
  val offsets = mutable.map[topicpartition, long]()

  topicpartitions.foreach { it =>
    val topic = it._1
    val partitions = it._2
    // 遍历分区，设置每个topic下对应partition的offset
    for (partition <- 0 until partitions) {
      val topicpartitionkey = topic + ":" + partition
      var lastoffset = 0l
      val lastsavedoffset = jedis.get(topicpartitionkey)

      if (null != lastsavedoffset) {
        try {
          lastoffset = lastsavedoffset.tolong
        } catch {
          case e: exception =>
            log.error("get lastsavedoffset error", e)
            system.exit(1)
        }
      }
      log.info("from redis topic: {}, partition: {}, lastoffset: {}", topic, partition, lastoffset)

      // 添加
      offsets += (new topicpartition(topic, partition) -> lastoffset)
    }
  }

  internalredisclient.returnresource(jedis)

  offsets.tomap
}

/**
  * 创建kakfa流
  *
  * @param ssc streamingcontext
  * @return inputdstream
  */
def createkafkastream(ssc: streamingcontext): inputdstream[consumerrecord[string, string]] = {
  val offsets = getoffsets

  // 创建kafka stream
  val stream = kafkautils.createdirectstream[string, string](
    ssc,
    locationstrategies.preferconsistent,
    consumerstrategies.assign[string, string](offsets.keys.tolist, kafkaparams, offsets)
  )
  stream
}

其中：核心是通过consumerstrategies.assign方法来指定topic下对应partition的offset信息。

更新offset到redis

最后将offset信息维护到redis即可。

/**
  * 消费
  *
  * @param stream inputdstream
  */
def consume(stream: inputdstream[consumerrecord[string, string]]): unit = {
  stream.foreachrdd { rdd =>
    // 获取offset信息
    val offsetranges = rdd.asinstanceof[hasoffsetranges].offsetranges

    // 计算相关指标，这里就统计下条数了
    val total = rdd.count()

    val jedis = internalredisclient.getresource
    val pipeline = jedis.pipelined()
    // 会阻塞redis
    pipeline.multi()

    // 更新相关指标
    pipeline.incrby("totalrecords", total)

    // 更新offset
    offsetranges.foreach { offsetrange =>
      log.info("save offsets, topic: {}, partition: {}, offset: {}", offsetrange.topic, offsetrange.partition, offsetrange.untiloffset)
      val topicpartitionkey = offsetrange.topic + ":" + offsetrange.partition
      pipeline.set(topicpartitionkey, offsetrange.untiloffset + "")
    }

    // 执行，释放
    pipeline.exec()
    pipeline.sync()
    pipeline.close()
    internalredisclient.returnresource(jedis)
  }
}

参考

spark代码

顺便贴一下自己整理的spark相关的代码。

github地址：

主要包括：

rdd的基本使用
sql
- jdbc（读、写）
- hive（读、写、动态分区）
streaming
- 消费kafka（手动提交、手动维护offset）
- 写入hbase
- 写入hive

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Spring Boot如何优雅的使用多线程实例详解

前言本文带你快速了解@async注解的用法，包括异步方法无返回值、有返回值，最后总结了@async注解失效的几个坑。在 springboot 应用中，经常会遇到... [阅读全文]
浅析我对 String、StringBuilder、StringBuffer 的理解

stringbuilder、stringbuffer 和 string 一样，都是用于存储字符串的。1、那既然有了 string ，为什么还需要他们两个呢？原因... [阅读全文]
Spring Boot加密配置文件特殊内容的示例代码详解

有时安全不得不考虑，看看新闻泄漏风波事件就知道了我们在用spring boot进行开发时，经常要配置很多外置参数ftp、数据库连接信息、支付信息等敏感隐私信息，... [阅读全文]
如何去除Java中List集合中的重复数据

1.循环list中的所有元素然后删除重复public class duplicatremoval {public static list removedupli... [阅读全文]
使用IDEA搭建SSM框架的详细教程(spring + springMVC +MyBatis)

1 框架组成springspringmvcmybatis2 所需工具mysql 8.0.15数据库管理系统，创建数据库tomcat 8.5.51&... [阅读全文]
Springboot整合freemarker 404问题解决方案

今天遇到了ftl整合springboot出现的问题@controllerpublic class indexcontroller { @requestmapp... [阅读全文]
Java面向对象之继承性的实例代码详解

一、类的继承a类继承b类，是指a类可以拥有b类的非私有属性和方法，同时a类也可以自己定义属性方法或重写方法以扩充自己的功能。1.1 方法的重写重写方法时，方法的... [阅读全文]
引入mybatis-plus报 Invalid bound statement错误问题的解决方法

错误mybatis-plus (简称mp) 是mybatis的一个增强工具，在mybatis的基础上只做增强不做改变，简化了开发效率。其实就是帮我们封装了一些简... [阅读全文]
Java rmi远程方法调用基本用法解析

本文主要介绍java中的rmi的基本使用1：项目架构api：主要是接口的定义，url地址，端口号rmiconsumer：rmi服务的调用者rmiserver：r... [阅读全文]
Matlab及Java实现小时钟效果

本文实例为大家分享了matlab及java实现小时钟的具体代码，供大家参考，具体内容如下一年前曾经用matlab的gui做了一个时钟，由于是直接用guide和a... [阅读全文]