当前位置：移动技术网 > IT编程>数据库>其他数据库 > Spark-Unit1-spark概述与安装部署

Spark-Unit1-spark概述与安装部署

2019年01月13日 | 移动技术网IT编程 | 我要评论

一、spark概述

　　spark官网：spark.apache.org

　　spark是用的大规模数据处理的统一计算引擎，它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校amp实验室。

　　mapreduce（mr）与spark的对比：

　　　　1.mr在计算中产生的结果存储在磁盘上，spark存储在内存中；

　　　　2.磁盘运行spark的速度是mr的10倍，内存运行spark是mr的100多倍；

　　　　3.spark并不是为了替代hadoop，而是为了补充hadoop；

　　　　4.spark没有存储，但他可以继承hdfs。

　　spark启用的是内存分布式数据集，而scala语言可以轻松的处理分布式数据集，scala语言可以说是为spark而生的，而spark 的出现推动了scala语言的发展。

二、spark特点

　　1.速度快

　　　　磁盘运行spark的速度是mr的10倍，内存运行spark是mr的100多倍；

　　　　spark使用最先进的dag调度程序，查询优化器和物理执行引擎，实现批处理和流处理的高性能。

　　　　注释：dag：有向无环图，上一个rdd的计算结果作为下一个rdd计算的初始值，可以迭代成千上万次。

　　　　　　查询优化器：指的是spark sql

　　　　　　　批处理：spark sql

　　　　　　　流处理：spark streaming

　　2.便于使用

　　　　支持java/scala/python/r/sql编写应用程序

　　3.通用性高

　　　　不仅支持批处理、流处理，

　　　　还支持机器学习（mllib:machine learning library）和图形计算（graphx）

　　4.兼容性高

　　　　spark运行在hadoop，apache mesos。kubernetes，独立或云端。它可以访问各种数据源。

　　　　spark实现了standalone模式作为内置的资源管理和调度框架。

三、spark的安装部署

　　1.准备工作：

　　　　新建三台虚拟机（建议2g内存，1g也可以）/使用远程连接工具连接 / 关闭防火墙 / 修改主机名

　　　　/ 修改映射文件 / 设置免密登陆 / 安装jdk（1.8以上版本）

　　2.在官网下载spark 安装包（我是2.2.0版本）

　　　　然后上传到linux系统，解压，删包，重命名

　　3.修改spark部分配置文件

　　　　进入spark->conf

　　　　1）重命名spark-env.sh.template 为 spark-env.sh，进入该文件

　　　　添加配置信息：

　　　　export java_home=/root/sk/jdk1.8.0_132　　　　//jdk安装路径

　　　　export spark_master_host=spark-01　　　　//spark主节点机器名

　　　　export spark_master_port=7077　　　　　 //spark主机点端口号

　　　　2）重命名slaves.template(好像是这个)为slaves，进入该文件

　　　　删除最后一行“localhost”

　　　　添加:spark-02

　　　　　　 spark-03　　　　//其他两台从节点worker，便于一键启动

　　4.发送修改好的spark解压文件夹到其他两台机器

　　　　scp -r sprk sprk-02:$pwd

　　5.启动spark，访问web页面

　　　　在spark 的sbin目录下输入命令：

　　　　./start-all.sh

　　　　然后通过ip:端口号访问ui界面，如：

　　　　192.168.50.186:8080

四、spark的ui界面详解
　　 url：统一资源定位符，spark-master的访问地址
　　rest url：可以通过rest的方式访问集群
　　alive workers：存活的worker数量
　　cores in use：可以使用的核心数量
　　 memory in use：可以使用的内存大小
　　applications：正在运行和已经完成的应用程序
　　driver：通过driver提交的任务情况
　　status：节点的状态

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]
流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]
Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]
在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]
Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]

网友评论


验证码：

Spark-Unit1-spark概述与安装部署

2019年01月13日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论