DStream转为DF的两种方式（突破map时元组22的限制）_其他数据库

DStream转为DF的两种方式（突破map时元组22的限制）

在进行spark streaming的开发时，我们常常需要将dstream转为dataframe来进行进一步的处理，
共有两种方式，方式一：

val spark = sparksession.builder()
  .appname("test")
  .getorcreate()
import spark.implicits._
dstream.foreachrdd{ rdd =>
  val df = rdd.map(_.split(" "))
    .map(t => (t(1),t(2),t(3)))
    .todf("col1","col2","col3")
  // 业务逻辑
}

利用map算子和tuple来完成，一般的场景下采用这种方式即可。

但是有的时候我们会遇到列数大于22的情况，这个时候会受到scala的tuple数不能超过22的影响。这时可以采用方式二：

val spark = sparksession.builder()
  .appname("test")
  .getorcreate()
dstream.foreachrdd{ rdd =>
  val res:rdd[row] = rdd.map{ row =>
    val buffer = arraybuffer.empty[any]
    val fields: array[string] = row.split("\\|~\\|")
    buffer.append(fields(0))
    buffer.append(fields(1))
    buffer.append(fields(2))
    // 省略
    buffer.append(fields(25))
    row.fromseq(buffer)
  } 
  val schema = structtype(seq(
    structfield("col1", stringtype, false),
    structfield("col2", stringtype, false),
    structfield("col3", stringtype, false),
    // 省略
    structfield("col26", stringtype, false)
  ))
  val df: dataframe = spark.createdataframe(result, schema)
  // 业务逻辑
}

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

详解SQL中Group By的使用教程

1、概述“group by”从字面意义上理解就是根据“by”指定的规则对数据进行分组，所谓的分组就是将一个“数据集”划分成若干个“小区域”，然后针对若干个“小区... [阅读全文]

Spark读取Mysql，Redis，Hbase数据

1、读取Mysql数据 object JdbcRddDemo { def getConn() = { Class.forName("com.m... [阅读全文]

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]

流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]

Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]

在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]

Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]

实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]

DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]

去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]


验证码：

验证码：

DStream转为DF的两种方式（突破map时元组22的限制）

2019年07月12日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论