spark streaming vs structured streaming
spark streaming是spark最初的流处理框架,使用了微批的形式来进行流处理。
提供了基于rdds的dstream api,每个时间间隔内的数据为一个rdd,源源不断对rdd进行处理来实现流计算
apache spark 在 2016 年的时候启动了 structured streaming 项目,一个基于 spark sql 的全新流计算引擎 structured streaming,让用户像编写批处理程序一样简单地编写高性能的流处理程序。
structured streaming是spark2.0版本提出的新的实时流框架(2.0和2.1是实验版本,从spark2.2开始为稳定版本)
从spark-2.x版本后,spark streaming就进入维护模式,看见spark已经将大部分精力投入到了全新的structured streaming中,而一些新特性也只有structured streaming才有,这样spark才有了与flink一战的能力。
1、spark streaming 不足
processing time 而不是 event time
首先解释一下,processing time 是数据到达 spark 被处理的时间,而 event time 是数据自带的属性,一般表示数据产生于数据源的时间。比如 iot 中,传感器在 12:00:00 产生一条数据,然后在 12:00:05 数据传送到 spark,那么 event time 就是 12:00:00,而 processing time 就是 12:00:05。我们知道 spark streaming 是基于 dstream 模型的 micro-batch 模式,简单来说就是将一个微小时间段,比如说 1s,的流数据当前批数据来处理。如果我们要统计某个时间段的一些数据统计,毫无疑问应该使用 event time,但是因为 spark streaming 的数据切割是基于 processing time,这样就导致使用 event time 特别的困难。
complex, low-level api
这点比较好理解,dstream (spark streaming 的数据模型)提供的 api 类似 rdd 的 api 的,非常的 low level。当我们编写 spark streaming 程序的时候,本质上就是要去构造 rdd 的 dag 执行图,然后通过 spark engine 运行。这样导致一个问题是,dag 可能会因为开发者的水平参差不齐而导致执行效率上的天壤之别。这样导致开发者的体验非常不好,也是任何一个基础框架不想看到的(基础框架的口号一般都是:你们专注于自己的业务逻辑就好,其他的交给我)。这也是很多基础系统强调 declarative 的一个原因。
reason about end-to-end application
这里的 end-to-end 指的是直接 input 到 out,比如 kafka 接入 spark streaming 然后再导出到 hdfs 中。dstream 只能保证自己的一致性语义是 exactly-once 的,而 input 接入 spark streaming 和 spark straming 输出到外部存储的语义往往需要用户自己来保证。而这个语义保证写起来也是非常有挑战性,比如为了保证 output 的语义是 exactly-once 语义需要 output 的存储系统具有幂等的特性,或者支持事务性写入,这个对于开发者来说都不是一件容易的事情。
批流代码不统一
尽管批流本是两套系统,但是这两套系统统一起来确实很有必要,我们有时候确实需要将我们的流处理逻辑运行到批数据上面。关于这一点,最早在 2014 年 google 提出 dataflow 计算服务的时候就批判了 streaming/batch 这种叫法,而是提出了 unbounded/bounded data 的说法。dstream 尽管是对 rdd 的封装,但是我们要将 dstream 代码完全转换成 rdd 还是有一点工作量的,更何况现在 spark 的批处理都用 dataset/dataframe api 了。
2.、structured streaming 优势
相对的,来看下structured streaming优势:
底层原理完全不同
spark streaming采用微批的处理方法。每一个批处理间隔的为一个批,也就是一个rdd,我们对rdd进行操作就可以源源不断的接收、处理数据。
structured streaming将实时数据当做被连续追加的表。流上的每一条数据都类似于将一行新数据添加到表中。
spark 3.0.0发布以后 全新的structured streaming ui诞生,可见未来的structured streaming将不断迎来进步。
总结
到此这篇关于使用spark进行实时流计算的方法的文章就介绍到这了,更多相关spark实时流计算内容请搜索移动技术网以前的文章或继续浏览下面的相关文章希望大家以后多多支持移动技术网!
如对本文有疑问, 点击进行留言回复!!
提高github下载速度的方法可达到2MB/s(100%有效)
git中submodule子模块的添加、使用和删除的示例代码
网友评论