Spark之编程模型RDD_其他数据库

Spark之编程模型RDD

前言：spark编程模型两个主要抽象，一个是弹性分布式数据集rdd，它是一种特殊集合，支持多种数据源，可支持并行计算，可缓存；另一个是两种共享变量，支持并行计算的广播变量和累加器。

1.rdd介绍

spark大数据处理平台建立在rdd之上，rdd是spark的核心概念，最主要的抽象之一。rdd和spark之间的关系是，rdd是一种基于内存的具有容错性的集群抽象方法，spark是这个抽象方法的实现。

rdd（resilient distributed dataset）叫做弹性分布式数据集，是spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。rdd具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。rdd允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

1.1 rdd的特征

（1）分区（partition）：一个数据分片列表。能够将数据切分，切分好的数据能够进行并行计算，是数据集的原子组成部分。用户可以在创建rdd时指定rdd的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的cpu core的数目。

（2）函数（compute）：一个计算rdd每个分片的函数。rdd的计算是以分片为单位的，每个rdd都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果。

（3）依赖（dependency）：rdd的每次转换都会生成一个新的rdd，所以rdd之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对rdd的所有分区进行重新计算。

（4）优先位置（可选）：一个列表，存储存取每个partition的优先位置（preferred location）。对于一个hdfs文件来说，这个列表保存的就是每个partition所在的块的位置。按照“移动数据不如移动计算”的理念，spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。

（5）分区策略（可选）：一个partitioner，即rdd的分片函数，描述分区的模式和数据存放的位置。当前spark中实现了两种类型的分片函数，一个是基于哈希的hashpartitioner，另外一个是基于范围的rangepartitioner。只有对于于key-value的rdd，才会有partitioner，非key-value的rdd的parititioner的值是none。partitioner函数不但决定了rdd本身的分片数量，也决定了parent rdd shuffle输出时的分片数量。

常见的rdd有很多种，每个transformation操作都会产生一种rdd，一下是各种rdd特征比较。

常见rdd特征

1.2 rdd依赖

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

RDD和DataFrame和DataSet三者间的区别

在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RD... [阅读全文]

详解SQL中Group By的使用教程

1、概述“group by”从字面意义上理解就是根据“by”指定的规则对数据进行分组，所谓的分组就是将一个“数据集”划分成若干个“小区域”，然后针对若干个“小区... [阅读全文]

Spark读取Mysql，Redis，Hbase数据

1、读取Mysql数据 object JdbcRddDemo { def getConn() = { Class.forName("com.m... [阅读全文]

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]

流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]

Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]

在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]

Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]

实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]

DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]


验证码：

验证码：

Spark之编程模型RDD

2018年09月14日 | 移动技术网IT编程 | 我要评论

1.rdd介绍

1.1 rdd的特征

1.2 rdd依赖

您可能感兴趣的文章:

相关文章:

网友评论