当前位置：移动技术网 > IT编程>开发语言>其他编程 > 使用Spark进行实时流计算的方法

使用Spark进行实时流计算的方法

2020年08月05日 | 移动技术网IT编程 | 我要评论

spark streaming vs structured streaming

spark streaming是spark最初的流处理框架，使用了微批的形式来进行流处理。

提供了基于rdds的dstream api，每个时间间隔内的数据为一个rdd，源源不断对rdd进行处理来实现流计算

apache spark 在 2016 年的时候启动了 structured streaming 项目，一个基于 spark sql 的全新流计算引擎 structured streaming，让用户像编写批处理程序一样简单地编写高性能的流处理程序。

structured streaming是spark2.0版本提出的新的实时流框架（2.0和2.1是实验版本，从spark2.2开始为稳定版本)

从spark-2.x版本后，spark streaming就进入维护模式，看见spark已经将大部分精力投入到了全新的structured streaming中，而一些新特性也只有structured streaming才有，这样spark才有了与flink一战的能力。

1、spark streaming 不足

processing time 而不是 event time

首先解释一下，processing time 是数据到达 spark 被处理的时间，而 event time 是数据自带的属性，一般表示数据产生于数据源的时间。比如 iot 中，传感器在 12:00:00 产生一条数据，然后在 12:00:05 数据传送到 spark，那么 event time 就是 12:00:00，而 processing time 就是 12:00:05。我们知道 spark streaming 是基于 dstream 模型的 micro-batch 模式，简单来说就是将一个微小时间段，比如说 1s，的流数据当前批数据来处理。如果我们要统计某个时间段的一些数据统计，毫无疑问应该使用 event time，但是因为 spark streaming 的数据切割是基于 processing time，这样就导致使用 event time 特别的困难。

complex, low-level api

这点比较好理解，dstream （spark streaming 的数据模型）提供的 api 类似 rdd 的 api 的，非常的 low level。当我们编写 spark streaming 程序的时候，本质上就是要去构造 rdd 的 dag 执行图，然后通过 spark engine 运行。这样导致一个问题是，dag 可能会因为开发者的水平参差不齐而导致执行效率上的天壤之别。这样导致开发者的体验非常不好，也是任何一个基础框架不想看到的（基础框架的口号一般都是：你们专注于自己的业务逻辑就好，其他的交给我）。这也是很多基础系统强调 declarative 的一个原因。

reason about end-to-end application

这里的 end-to-end 指的是直接 input 到 out，比如 kafka 接入 spark streaming 然后再导出到 hdfs 中。dstream 只能保证自己的一致性语义是 exactly-once 的，而 input 接入 spark streaming 和 spark straming 输出到外部存储的语义往往需要用户自己来保证。而这个语义保证写起来也是非常有挑战性，比如为了保证 output 的语义是 exactly-once 语义需要 output 的存储系统具有幂等的特性，或者支持事务性写入，这个对于开发者来说都不是一件容易的事情。

批流代码不统一

尽管批流本是两套系统，但是这两套系统统一起来确实很有必要，我们有时候确实需要将我们的流处理逻辑运行到批数据上面。关于这一点，最早在 2014 年 google 提出 dataflow 计算服务的时候就批判了 streaming/batch 这种叫法，而是提出了 unbounded/bounded data 的说法。dstream 尽管是对 rdd 的封装，但是我们要将 dstream 代码完全转换成 rdd 还是有一点工作量的，更何况现在 spark 的批处理都用 dataset/dataframe api 了。

2.、structured streaming 优势

相对的，来看下structured streaming优势：

简洁的模型。structured streaming 的模型很简洁，易于理解。用户可以直接把一个流想象成是无限增长的表格。
一致的 api。由于和 spark sql 共用大部分 api，对 spaprk sql 熟悉的用户很容易上手，代码也十分简洁。同时批处理和流处理程序还可以共用代码，不需要开发两套不同的代码，显著提高了开发效率。
卓越的性能。structured streaming 在与 spark sql 共用 api 的同时，也直接使用了 spark sql 的 catalyst 优化器和 tungsten，数据处理性能十分出色。此外，structured streaming 还可以直接从未来 spark sql 的各种性能优化中受益。
多语言支持。structured streaming 直接支持目前 spark sql 支持的语言，包括 scala，java，python，r 和 sql。用户可以选择自己喜欢的语言进行开发。
同样能支持多种数据源的输入和输出，kafka、flume、socket、json。
基于event-time，相比于spark streaming的processing-time更精确，更符合业务场景。
event time 事件时间: 就是数据真正发生的时间，比如用户浏览了一个页面可能会产生一条用户的该时间点的浏览日志。
process time 处理时间: 则是这条日志数据真正到达计算框架中被处理的时间点，简单的说，就是你的spark程序是什么时候读到这条日志的。
事件时间是嵌入在数据本身中的时间。对于许多应用程序，用户可能希望在此事件时间操作。例如，如果要获取iot设备每分钟生成的事件数，则可能需要使用生成数据的时间（即数据中的事件时间），而不是spark接收他们的时间。事件时间在此模型中非常自然地表示 - 来自设备的每个事件都是表中的一行，事件时间是该行中的一个列值。
支持spark2的dataframe处理。
解决了spark streaming存在的代码升级，dag图变化引起的任务失败，无法断点续传的问题。
基于sparksql构建的可扩展和容错的流式数据处理引擎，使得实时流式数据计算可以和离线计算采用相同的处理方式（dataframe&sql）。
可以使用与静态数据批处理计算相同的方式来表达流计算。

底层原理完全不同

spark streaming采用微批的处理方法。每一个批处理间隔的为一个批，也就是一个rdd，我们对rdd进行操作就可以源源不断的接收、处理数据。

structured streaming将实时数据当做被连续追加的表。流上的每一条数据都类似于将一行新数据添加到表中。

spark 3.0.0发布以后全新的structured streaming ui诞生，可见未来的structured streaming将不断迎来进步。

总结

到此这篇关于使用spark进行实时流计算的方法的文章就介绍到这了,更多相关spark实时流计算内容请搜索移动技术网以前的文章或继续浏览下面的相关文章希望大家以后多多支持移动技术网！

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

正确配置你的 Android 项目

gitignore当你新建 Android 项目时，默认会生成 gitignore 文件，但并没有包含所有必要的... [阅读全文]
Flutter_blue 体验

github 下载https://github.com/pauldemarco/flutter_blue，目前... [阅读全文]
提高github下载速度的方法可达到2MB/s(100%有效)

在国内从github上面下载代码的速度峰值通常都是20kb/s。这种速度对于那些小项目还好，而对于大一些的并且带有很多子模块的项目来讲就跟耽误时间。虽然有很多提... [阅读全文]
Git Submodule使用完整教程(小结)

自从看了蒋鑫的《git权威指南》之后就开始使用git submodule功能，团队也都熟悉了怎么使用，多个子系统（模块）都能及时更新到最新的公共资源，把使用的过... [阅读全文]
Git 2.27.0详细安装步骤详解

git 最新版 2.27.0详细安装，感兴趣的朋友参考下吧。1.下载进入官网根据自己的系统选择进行下载2.安装根据如下步骤安装完毕！加油吆青年总结到此这篇关于g... [阅读全文]
利用git提交代码的方法步骤

一、首先需要下载git　　查看电脑是否安装git,打开终端，输入git,回车如果输出如下,则代表已安装了git如果未安装,则会输出:按照提示输入:sudo ap... [阅读全文]
git clone 子模块没下载全的问题解决

★ 1. 下载一个包含很多子模块的工程例如：git clone --recursive https://github.com/caffe2/caffe2如果网络... [阅读全文]
git中submodule子模块的添加、使用和删除的示例代码

背景项目中经常使用别人维护的模块，在git中使用子模块的功能能够大大提高开发效率。使用子模块后，不必负责子模块的维护，只需要在必要的时候同步更新子模块即可。本文... [阅读全文]
编写高质量代码的30条黄金守则(首选隐式类型转换)

编写高质量代码的30条黄金守则-day 01(首选隐式类型转换)，本文由比特飞原创发布，转载务必在文章开头附带链接：该系列文章由比特飞原创发布，计划用三个月时间... [阅读全文]
详解vscode使用git所遇到的坑

今天给vscode配置git的时候，差点没把我送走，我在配置git项目的时候会，看了一个博客文章的教学，其中配置路径的方法如下1. 在git bash 中使用 ... [阅读全文]

网友评论


验证码：

使用Spark进行实时流计算的方法

2020年08月05日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论