当前位置：移动技术网 > IT编程>软件设计>架构 > 大数据云计算——Spark组件

大数据云计算——Spark组件

2020年07月28日 | 移动技术网IT编程 | 我要评论

spark简介

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：

Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求
官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍
基于内存的、通用的可扩展的计算引擎。

spark生态系统主要包含了Spark Core、SparkSQL、SparkStreaming、MLLib和GraphX等组件。

1、海量数据批量处理 MapReduce

2、基于历史数据的交互式查询 Cloudera Impala

3、实时数据流的处理

spark可以部署在资源管理器Yarn之上，提供一站式大数据解决方案、spark可以同时支持海量数据批量处理、历史数据分析、实时数据处理

Spark Core
包含 Spark 的基本功能；尤其是定义 RDD 的 API、操作以及这两者上的动作。其他 Spark 的库都是构建在 RDD 和 Spark Core 之上的
Spark SQL
提供通过 Apache Hive 的 SQL 变体 Hive 查询语言（HiveQL）与 Spark 进行交互的 API。每个数据库表被当做一个 RDD， Spark SQL 查询被转换为 Spark 操作。
Spark Streaming
对实时数据流进行处理和控制。 Spark Streaming 允许程序能够像普通 RDD 一样处理实时数据
Mllib
一个常用机器学习算法库，算法被实现为对 RDD 的 Spark 操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。
GraphX
控制图、并行图操作和计算的一组算法和工具的集合。 GraphX 扩展了 RDD API，包含控制图、创建子图、访问路径上所有顶点的操作。

spark原理

Cluster Manager-制整个集群，监控 worker在 standalone 模式中即为 Master 主节点，控制整个集群，监控 worker。在 YARN 模式中为资源管理器。Worker 节点-负责控制计算节点、从节点，负责控制计算节点，启动 Executor 或者 Driver。
Driver：运行 Application 的 main()函数
Executor：执行器，是为某个 Application 运行在 worker node 上的一个进程

Spark 应用程序从编写到提交、执行、输出的整个过程如图所示，图中描述的步骤如下：

1. 用户使用 SparkContext 提供的 API（常用的有 textFile、 sequenceFile、 runJob、 stop 等）编写 Driver application 程序。此外 SQLContext、 HiveContext 及 StreamingContext 对SparkContext 进行封装，并提供了 SQL、 Hive 及流式计算相关的 API。2. 使用SparkContext提交的用户应用程序，首先会使用BlockManager和BroadcastManager将任务的 Hadoop 配置进行广播。然后由 DAGScheduler 将任务转换为 RDD 并组织成 DAG，DAG 还将被划分为不同的 Stage。最后由 TaskScheduler 借助 ActorSystem 将任务提交给集群管理器（Cluster Manager）。
3. 集群管理器（ClusterManager）给任务分配资源，即将具体任务分配到Worker上， Worker创建 Executor 来处理任务的运行。 Standalone、 YARN、 Mesos、 EC2 等都可以作为 Spark的集群管理器。

Spark详细运行过程

涉及的几个定义和详细的运行过程如下：

Application：Spark应用程序：指的是用户编写的Spark应用程序，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序，由一个或多个作业JOB组成，如下图所示。

Driver：驱动程序：Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控等；当Executor部分运行完毕后，Driver负责将SparkContext关闭。通常SparkContext代表Driver，如下图所示。

Cluster Manager：资源管理器： 指的是在集群上获取资源的外部服务，常用的有：Standalone，Spark原生的资源管理器，由Master负责资源的分配；Haddop Yarn，由Yarn中的ResearchManager负责资源的分配；Messos，由Messos中的Messos Master负责资源管理。

Executor：执行器：Application运行在Worker节点上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上，每个Application都有各自独立的一批Executor，如下图所示。

Worker：计算节点： 集群中任何可以运行Application代码的节点，类似于Yarn中的NodeManager节点。在Standalone模式中指的就是通过Slave文件配置的Worker节点，在Spark on Yarn模式中指的就是NodeManager节点，在Spark on Messos模式中指的就是Messos Slave节点，如下图所示。

DAGScheduler：有向无环图调度器：基于DAG划分Stage 并以TaskSet的形势提交Stage给TaskScheduler；负责将作业拆分成不同阶段的具有依赖关系的多批任务；最重要的任务之一就是：计算作业和任务的依赖关系，制定调度逻辑。在SparkContext初始化的过程中被实例化，一个SparkContext对应创建一个DAGScheduler。

TaskScheduler：任务调度器：将Taskset提交给worker（集群）运行并回报结果；负责每个具体任务的实际物理调度。如图示。

Job：作业：由一个或多个调度阶段所组成的一次计算作业；包含多个Task组成的并行计算，往往由Spark Action催生，一个JOB包含多个RDD及作用于相应RDD上的各种Operation。如图所示。

Stage：调度阶段：一个任务集对应的调度阶段；每个Job会被拆分很多组Task，每组任务被称为Stage，也可称TaskSet，一个作业分为多个阶段；Stage分成两种类型ShuffleMapStage、ResultStage。如图所示。

Application多个job多个Stage：Spark Application中可以因为不同的Action触发众多的job，一个Application中可以有很多的job，每个job是由一个或者多个Stage构成的，后面的Stage依赖于前面的Stage，也就是说只有前面依赖的Stage计算完毕后，后面的Stage才会运行。

划分依据：Stage划分的依据就是宽依赖，何时产生宽依赖，reduceByKey, groupByKey等算子，会导致宽依赖的产生。

核心算法：从后往前回溯，遇到窄依赖加入本stage，遇见宽依赖进行Stage切分。Spark内核会从触发Action操作的那个RDD开始从后往前推，首先会为最后一个RDD创建一个stage，然后继续倒推，如果发现对某个RDD是宽依赖，那么就会将宽依赖的那个RDD创建一个新的stage，那个RDD就是新的stage的最后一个RDD。然后依次类推，继续继续倒推，根据窄依赖或者宽依赖进行stage的划分，直到所有的RDD全部遍历完成为止。

将DAG划分为Stage剖析：如上图，从HDFS中读入数据生成3个不同的RDD，通过一系列transformation操作后再将计算结果保存回HDFS。可以看到这个DAG中只有join操作是一个宽依赖，Spark内核会以此为边界将其前后划分成不同的Stage. 同时我们可以注意到，在图中Stage2中，从map到union都是窄依赖，这两步操作可以形成一个流水线操作，通过map操作生成的partition可以不用等待整个RDD计算结束，而是继续进行union操作，这样大大提高了计算的效率。

TaskSet：任务集：由一组关联的，但相互之间没有Shuffle依赖关系的任务所组成的任务集。如图所示。

提示：1）一个Stage创建一个TaskSet；2）为Stage的每个Rdd分区创建一个Task,多个Task封装成TaskSet

Task：任务：被送到某个Executor上的工作任务；单个分区数据集上的最小处理流程单元（单个stage内部根据操作数据的分区数划分成多个task）。如图所示。

Spark的算子RDD

RDD 是 Spark 的计算模型。RDD（Resilient Distributed Dataset）叫做弹性的分布式数据集合，是 Spark 中最基本的数据抽象，它代表一个不可变、只读的，被分区的数据集。操作 RDD 就像操作本地集合一样，有很多的方法可以调用，使用方便，而无需关心底层的调度细节。

RDD的属性：

RDD的特点：

RDD的编程模型：

RDD的创建

Spark SQL

Spark Streaming

本文地址：https://blog.csdn.net/weixin_41605937/article/details/106815813

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

12.pytest_mark标记测试用例

pytest可以支持自定义标记，自定义标记可以把一个web项目划分多个模块，然后指定模块名称执行。一个大项目自动... [阅读全文]
开篇：性能问题的现状

性能问题的现状性能优化？是不是感觉这个词很高大上？刚工作2、3年的程序员甚至觉得学此技能有点早？真的是这样吗？“... [阅读全文]
7.16总结（维信小程序开发）

今天正式要做一个体育场地预约系统，用微信小程序云开发，想用博客来做一个完整的项目进展记录，记录每天的成果与收获。... [阅读全文]
ExaGrid报告显示新冠疫情期间季度业绩仍表现强劲

新客户获取表现强劲，交易额达到六至七位数。马萨诸塞州马尔伯勒--(美国商业资讯)--分层备份存储领先提供商Exa... [阅读全文]
分布式架构系列 - 分布式事务 01（基础篇）

阅读全文，约 10分钟这是江帅帅的第027篇文章1、什么是事务？一般的事务，指的是本地事务，单机上的事务。事务提... [阅读全文]
开源消息队列QMQ的设计与实现理念

文章概要背景2012 年，随着公司业务的快速增长，公司当时的单体应用架构很难满足业务快速增长的要求，和其他... [阅读全文]
闪存的物理结构

闪存芯片从小到大依此是由：cell（单元）、page（页）、block（块）、plane（平面）、die（核心）... [阅读全文]
Saas、Paas、IaaS的区别

定义层面SaaS、PaaS、IaaS都是属于云计算服务的范畴，也就是云计算+服务。来自Wiki的解释为: Cou... [阅读全文]
pomelo源码解析之组件解析（四）

文章目录消息处理组件server过滤器globalFilterService、filterService处理消息... [阅读全文]
Nginx日志细节处理

文章目录Nginx 日志处理过滤冗杂日志使用官网默认模块 `ngx_http_map_module`过滤指定 U... [阅读全文]