Spark整合Mongodb的方法
2017-12-07 19:10 | 评论:0 次 | 浏览: 0
spark介绍 按照官方的定义,spark 是一个通用,快速,适用于大规模数据的处理引擎。 通用性:我们可以使用spark sql来执行常规分析, spark stre
Spark SQL数据加载和保存实例讲解
2017-12-08 18:50 | 评论:0 次 | 浏览: 0
一、前置知识详解 spark sql重要是操作dataframe,dataframe本身提供了save和load的操作, load:可以创建dataframe,
Redis 中spark参数executor-cores引起的异常解决办法
2017-12-08 19:07 | 评论:0 次 | 浏览: 0
redis 中spark参数executor-cores引起的异常解决办法 报错信息 unexpected end of stream 16/10/11 16
Spark SQL操作JSON字段的小技巧
2018-05-11 15:38 | 评论:0 次 | 浏览: 0
前言 介绍spark sql的json支持,这是我们在databricks中开发的一个功能,可以在spark中更容易查询和创建json数据。随着网络和移动应用程序的普及,
Spark-shell批量命令执行脚本的方法
2018-08-08 23:28 | 评论:0 次 | 浏览: 0
批量执行spark-shell命令,并指定提交参数 #!/bin/bash source /etc/profile exec $spark_home/
Spark-SQL学习笔记之Datasets and DataFrames
2018-09-22 00:00 | 评论:0 次 | 浏览: 0
概述 spark sql是spark中的一个模块,负责结构化数据的处理。它跟spark rdd api不一样,spark sql提供的接口会提供更多关于数据和执行计算的信息。在内部,spark sq
spark-2.4.0-hadoop2.7-简单操作
2018-12-03 14:47 | 评论:0 次 | 浏览: 0
1. 说明 本文基于:spark-2.4.0-hadoop2.7-高可用(HA)安装部署 2. 启动Spark Shell 在任意一台有spark的机器上执行 注意: 如果启动spark shell时没有指定master地址,但是也可以正常启动spark shell和执行spark shell中的程 ...
Spark RPC 框架源码分析(三)Spark 心跳机制分析
2019-01-18 09:21 | 评论:0 次 | 浏览: 0
前两次讲了 Spark RPC 的基础内容以及源码时序分析。这次我们来看看Spark 如何用 RPC 实现心跳。 ...
Spark RPC框架源码分析(一)简述
2019-02-26 07:15 | 评论:0 次 | 浏览: 0
Spark RPC 框架对 Spark 来说是至关重要的,它在 Spark 中担任中枢的作用。 ...
浅谈Spark RDD API中的Map和Reduce
2019-04-18 16:18 | 评论:0 次 | 浏览: 0
rdd是什么? rdd是spark中的抽象数据结构类型,任何数据在spark中都被表示为rdd。从编程的角度来看,rdd可以简单看成是一个数组。和普通数组的区别是,r
Spark三种属性配置方式详解
2019-04-18 16:18 | 评论:0 次 | 浏览: 0
随着spark项目的逐渐成熟, 越来越多的可配置参数被添加到spark中来。在spark中提供了三个地方用于配置: 1、spark properties:这个可以
Spark实现K-Means算法代码示例
2019-04-18 16:18 | 评论:0 次 | 浏览: 0
k-means算法是一种基于距离的聚类算法,采用迭代的方法,计算出k个聚类中心,把若干个点聚成k类。 mllib实现k-means算法的原理是,运行多个k-means
浅谈七种常见的Hadoop和Spark项目案例
2019-04-18 16:18 | 评论:0 次 | 浏览: 0
有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的hadoop、spark和stor
Python中用Spark模块的使用教程
2019-05-24 22:31 | 评论:0 次 | 浏览: 0
在日常的编程中,我经常需要标识存在于文本文档中的部件和结构,这些文档包括:日志文件、配置文件、定界的数据以及格式更自由的(但还是半结构化的)报表格式。所有这些文
使用docker快速搭建Spark集群的方法教程
2019-05-30 16:52 | 评论:0 次 | 浏览: 0
前言 spark 是 berkeley 开发的分布式计算的框架,相对于 hadoop 来说,spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率,目前收到
Spark 的 python 编程环境
2019-06-12 07:27 | 评论:0 次 | 浏览: 0
Spark编程环境 Spark 可以独立安装使用,也可以和 Hadoop 一起安装使用。在安装 Spark 之前,首先确保你的电脑上已经安装了 或者更高的版本。 Spark 安装 访问 "Spark 下载页面" ,并选择最新版本的 Spark 直接下载,当前的最新版本是 2.4.2 。下载好之后需要 ...
Spark操作之aggregate、aggregateByKey详解
2019-07-19 14:41 | 评论:0 次 | 浏览: 0
1. aggregate函数 将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zerovalue)进行combine操作。这个函数最终
初识Spark入门
2019-07-19 14:42 | 评论:0 次 | 浏览: 0
1. spark简介 2009年,spark诞生于伯克利大学的amplab实验室。最出spark只是一个实验性的项目,代码量非常少,属于轻量级的框架。
Spark学习笔记之Spark中的RDD的具体使用
2019-07-19 14:42 | 评论:0 次 | 浏览: 0
1. spark中的rdd resilient distributed datasets(弹性分布式数据集) spark中的最基本的抽象 有了rdd的
Spark学习笔记之Spark SQL的具体使用
2019-07-19 14:42 | 评论:0 次 | 浏览: 0
1. spark sql是什么? 处理结构化数据的一个spark的模块 它提供了一个编程抽象叫做dataframe并且作为分布式sql查询引擎的作用
Spark Streaming算子开发实例
2019-07-19 14:42 | 评论:0 次 | 浏览: 0
spark streaming算子开发实例 transform算子开发 transform操作应用在dstream上时,可以用于执行任意的rdd到rdd的转换操作,还可
Spark学习笔记Spark Streaming的使用
2019-07-19 14:42 | 评论:0 次 | 浏览: 0
1. spark streaming spark streaming是一个基于spark core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理
idea远程调试spark的步骤讲解
2019-07-19 15:22 | 评论:0 次 | 浏览: 0
spark 远端调试 本地调试远端集群运行的spark项目,当spark项目在集群上报错,但是本地又查不出问题时,最好的方式就是调试一步一步跟踪代码。但是在集群上的代码又
Spark调度架构原理详解
2019-07-19 17:09 | 评论:0 次 | 浏览: 0
1.启动spark集群,就是执行sbin/start-all.sh,启动master和多个worker节点,master主要作为集群的管理和监控,worker节点主要担
spark之Standalone模式部署配置详解
2019-07-19 17:41 | 评论:0 次 | 浏览: 0
spark运行模式 spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 yarn和 mesos 中,当然 s
Spark学习笔记3——RDD(下)
2019-09-19 00:20 | 评论:0 次 | 浏览: 0
Spark 的 RDD 学习第二节,笔记相关: 1.如何向 Spark 传递函数 2.Spark 常用的一些转化和行动操作 3.Spark 的持久化级别 ...
Spark Streaming vs. Structured Streaming
2019-12-22 15:28 | 评论:0 次 | 浏览: 0
细说Spark Streaming和Structured Streaming的区别 ...