Spark_移动技术网搜索

Spark整合Mongodb的方法

2017-12-07 19:10 | 评论：0 次 | 浏览: 0

spark介绍按照官方的定义，spark 是一个通用，快速，适用于大规模数据的处理引擎。通用性：我们可以使用spark sql来执行常规分析， spark stre

Spark SQL数据加载和保存实例讲解

2017-12-08 18:50 | 评论：0 次 | 浏览: 0

一、前置知识详解 spark sql重要是操作dataframe，dataframe本身提供了save和load的操作， load：可以创建dataframe，

Redis 中spark参数executor-cores引起的异常解决办法

2017-12-08 19:07 | 评论：0 次 | 浏览: 0

redis 中spark参数executor-cores引起的异常解决办法报错信息 unexpected end of stream 16/10/11 16

Spark SQL操作JSON字段的小技巧

2018-05-11 15:38 | 评论：0 次 | 浏览: 0

前言介绍spark sql的json支持，这是我们在databricks中开发的一个功能，可以在spark中更容易查询和创建json数据。随着网络和移动应用程序的普及，

Spark-shell批量命令执行脚本的方法

2018-08-08 23:28 | 评论：0 次 | 浏览: 0

批量执行spark-shell命令，并指定提交参数 #!/bin/bash source /etc/profile exec $spark_home/

Spark-SQL学习笔记之Datasets and DataFrames

2018-09-22 00:00 | 评论：0 次 | 浏览: 0

概述 spark sql是spark中的一个模块，负责结构化数据的处理。它跟spark rdd api不一样，spark sql提供的接口会提供更多关于数据和执行计算的信息。在内部，spark sq

spark-2.4.0-hadoop2.7-简单操作

2018-12-03 14:47 | 评论：0 次 | 浏览: 0

1. 说明本文基于：spark-2.4.0-hadoop2.7-高可用(HA)安装部署 2. 启动Spark Shell 在任意一台有spark的机器上执行注意：如果启动spark shell时没有指定master地址，但是也可以正常启动spark shell和执行spark shell中的程 ...

Spark MemoryManager内存模型

2018-12-21 01:09 | 评论：0 次 | 浏览: 0

...

Spark RPC 框架源码分析（三）Spark 心跳机制分析

2019-01-18 09:21 | 评论：0 次 | 浏览: 0

前两次讲了 Spark RPC 的基础内容以及源码时序分析。这次我们来看看Spark 如何用 RPC 实现心跳。 ...

Spark RPC框架源码分析（一）简述

2019-02-26 07:15 | 评论：0 次 | 浏览: 0

Spark RPC 框架对 Spark 来说是至关重要的，它在 Spark 中担任中枢的作用。 ...

浅谈Spark RDD API中的Map和Reduce

2019-04-18 16:18 | 评论：0 次 | 浏览: 0

rdd是什么？ rdd是spark中的抽象数据结构类型，任何数据在spark中都被表示为rdd。从编程的角度来看，rdd可以简单看成是一个数组。和普通数组的区别是，r

Spark三种属性配置方式详解

2019-04-18 16:18 | 评论：0 次 | 浏览: 0

随着spark项目的逐渐成熟, 越来越多的可配置参数被添加到spark中来。在spark中提供了三个地方用于配置：　　1、spark properties：这个可以

Spark实现K-Means算法代码示例

2019-04-18 16:18 | 评论：0 次 | 浏览: 0

k-means算法是一种基于距离的聚类算法，采用迭代的方法，计算出k个聚类中心，把若干个点聚成k类。 mllib实现k-means算法的原理是，运行多个k-means

浅谈七种常见的Hadoop和Spark项目案例

2019-04-18 16:18 | 评论：0 次 | 浏览: 0

有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会做别人正在做的事情。如比较火爆的hadoop、spark和stor

Python中用Spark模块的使用教程

2019-05-24 22:31 | 评论：0 次 | 浏览: 0

在日常的编程中，我经常需要标识存在于文本文档中的部件和结构，这些文档包括：日志文件、配置文件、定界的数据以及格式更自由的（但还是半结构化的）报表格式。所有这些文

centOS7下Spark安装配置教程详解

2019-05-29 15:47 | 评论：0 次 | 浏览: 0

环境说明：操作系统： centos7 64位 3台 &n

使用docker快速搭建Spark集群的方法教程

2019-05-30 16:52 | 评论：0 次 | 浏览: 0

前言 spark 是 berkeley 开发的分布式计算的框架，相对于 hadoop 来说，spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到

Spark 的 python 编程环境

2019-06-12 07:27 | 评论：0 次 | 浏览: 0

Spark编程环境 Spark 可以独立安装使用，也可以和 Hadoop 一起安装使用。在安装 Spark 之前，首先确保你的电脑上已经安装了或者更高的版本。 Spark 安装访问 "Spark 下载页面" ，并选择最新版本的 Spark 直接下载，当前的最新版本是 2.4.2 。下载好之后需要 ...