[学习笔记]
parallelize并行化集合是根据一个已经存在的scala集合创建的rdd对象。集合的里面的元素将会被拷贝进入新创建出的一个可被并行操作的分布式数据集。
例如:val rdd03 = sc.parallelize(list(1, 4, 3, 7, 5)) 根据系统环境来进行切分多个slice,每一个slice启动一个task来进行处理。
val rdd03 = sc.parallelize(list(1, 4, 3, 7, 5), 5) 指定了partition的数量为5,
makerdd和parallelize的区别?makerdd函数有两种实现,第一种实现其实完全和parallelize一致。而第二种实现可以为数据提供位置信息,除此之外,和parallelize是一致的
*/
val rdd03 = sc.parallelize(list(1, 4, 3, 7, 5), 3)
val rdd03_1 = rdd03.map { x => x + 1 }
println("map2 用法 is 马克-to-win @ 马克java社区:" + rdd03_1.collect().mkstring(","))
val rdd04 = sc.parallelize(list(1, 4, 3, 7, 5), 3)
val rdd04_1 = rdd04.filter { x => x > 3 }
println("filter2 用法 马克-to-win @ 马克java社区:" + rdd04_1.collect().mkstring(","))
val rdd05: rdd[int] = sc.makerdd(array(1, 4, 3))
val rdd06: rdd[int] = sc.makerdd(array(7, 5))
myunion(rdd05, rdd06)
/*reduce(function)
文章转载自原文:
如对本文有疑问, 点击进行留言回复!!
HBase Filter 过滤器之FamilyFilter详解
去 HBase,Kylin on Parquet 性能表现如何?
如何找到Hive提交的SQL相对应的Yarn程序的applicationId
网友评论