当前位置：移动技术网 > IT编程>数据库>MongoDB > Spark整合Mongodb的方法

Spark整合Mongodb的方法

2017年12月07日 | 移动技术网IT编程 | 我要评论

spark介绍

按照官方的定义，spark 是一个通用，快速，适用于大规模数据的处理引擎。

通用性：我们可以使用spark sql来执行常规分析， spark streaming 来流数据处理，以及用mlib来执行机器学习等。java，python，scala及r语言的支持也是其通用性的表现之一。

快速：这个可能是spark成功的最初原因之一，主要归功于其基于内存的运算方式。当需要处理的数据需要反复迭代时，spark可以直接在内存中暂存数据，而无需像map reduce一样需要把数据写回磁盘。官方的数据表明：它可以比传统的map reduce快上100倍。

大规模：原生支持hdfs，并且其计算节点支持弹性扩展，利用大量廉价计算资源并发的特点来支持大规模数据处理。

环境准备

mongodb下载

解压安装

启动mongodb服务

$mongodb_home/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log

pom依赖

<dependency> 
<groupid>org.mongodb.spark</groupid> 
<artifactid>mongo-spark-connector_2.11</artifactid> 
<version>${spark.version}</version> 
</dependency>

实例代码

object connapptest { 
def main(args: array[string]): unit = { 
val spark = sparksession.builder() 
.master("local[2]") 
.appname("connapptest") 
.config("spark.mongodb.input.uri", "mongodb://192.168.31.136/testdb.testcollection") // 指定mongodb输入 
.config("spark.mongodb.output.uri", "mongodb://192.168.31.136/testdb.testcollection") // 指定mongodb输出 
.getorcreate() 
// 生成测试数据 
val documents = spark.sparkcontext.parallelize((1 to 10).map(i => document.parse(s"{test: $i}"))) 
// 存储数据到mongodb 
mongospark.save(documents) 
// 加载数据 
val rdd = mongospark.load(spark) 
// 打印输出 
rdd.show 
} 
}

总结

以上所述是小编给大家介绍的spark整合mongodb的方法，希望对大家有所帮助

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

express+mongoose实现对mongodb增删改查操作详解

本文实例讲述了express+mongoose实现对mongodb增删改查操作。分享给大家供大家参考，具体如下：项目地址：写在开头本文主要分享我如何使用expr... [阅读全文]
CentOS7.2 安装 MongoDB 3.4的教程

服务器版本 centos7.2mongodb版本 3.41/ 下载所需资源阿里镜像地址 http://mirrors.aliyun.com/mongodb/yu... [阅读全文]
MongoDB数据库基础操作总结

本文实例讲述了mongodb数据库基础操作。分享给大家供大家参考，具体如下：1.创建数据库>use test > db.test.insert({"... [阅读全文]
Mongoose 在egg中的使用详解

mongoose是什么？mongoose是mongodb的一个对象模型工具，封装了许多mongodb对文档的的增删改查等常用方法，让nodejs操作mongod... [阅读全文]
Redis 链表的节点重排能力以及增删节点

链表提供了高效的节点重排能力，以及顺序性的节点访问方式，并且可以通过增删节点来灵活地调整链表的长度。 redis中链表应用广泛，如list中就使用了链表... [阅读全文]
Redis字典的哈希表底层实现和哈希节点存储

Redis的字典使用哈希表作为底层实现，一个哈希表中可以有多个哈希表节点，而每个哈希节点就保存在字典中的一个键值对。 redis字典所用的哈希表由dis... [阅读全文]
三分钟快速搭建分布式高可用的Redis集群

Redis Cluster是Redis在3.0版本正式推出的专用集群方案，有效地解决了Redis分布式方面的需求，让我们一起快速搭建出分布式高可用的Re... [阅读全文]
修复 Mac brew 安装 mongodb 报 Error: No available formula with the name ‘mongodb’ 问题详解

根据 homebrew-brew 官方的解释得知，mongodb 不再是开源的了，并且已经从 homebrew中移除 #43770正是由于 mongodb 的商... [阅读全文]
MongoDB常用数据库命令大全

一、mongodb 数据库常用操作命令1、help查看命令提示helpdb.help();db.yourcoll.help();2、切换/创建数据库use ra... [阅读全文]
28个MongoDB经典面试题详解

mongodb是目前最好的面向文档的免费开源nosql数据库。如果你正准备参加mongodb nosql数据库的技术面试，你最好看看下面的mongodb nos... [阅读全文]

网友评论


验证码：

Spark整合Mongodb的方法

2017年12月07日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论