当前位置：移动技术网 > 科技>人工智能>云计算 > 云计算Pigjoincogroup介绍

云计算Pigjoincogroup介绍

2018年03月25日 | 移动技术网科技 | 我要评论

join

(2,Tie)
(4,Coat)
(3,Hat)
(1,Scarf)

(Joe,2)
(Hank,4)
(Ali,0)
(Eve,3)
(Hank,2)

inner join

A = LOAD ‘A’；
B = LOAD ‘B’；
C = JOIN A BY $0, B BY $1;
DUMP C；

output：

(2,Tie,Hank,2)
(2,Tie,Joe,2)
(3,Hat,Eve,3)
(4,Coat,Hank,4)

如果要进行的连接的关系太大，不能全部放到内存当中，则应该使用通用的连接操作。如果有一个关系小到能够全部放在内存中，则可以使用一种特殊的连接操作，即 fragment replicate join，它把小的输入关系发送到所有的mapper，并在map端使用内存查找表对（分段的）较大的关系进行连接。
命令：

C = JOIN A BY $0, B BY $1 USING 'replicated';

注意：第一个必须是大的数据集，后面则是一个或者多个相对较小的（能够全部放在内存中）。

outer join

C = JOIN A BY $0 LEFT OUTER, B BY $1;

注意：A,B需要明确模式，不然会报错

COGROUP

D = COGROUP A BY $0, B BY $1;

output：

(0,{},{(Ali,0)})
(1,{(1,Scarf)},{})
(2,{(2,Tie)},{(Hank,2),(Joe,2)})
(3,{(3,Hat)},{(Eve,3)})
(4,{(4,Coat)},{(Hank,4)})

COGROUP 和join 操作类似，不同点在于，COGROUP会创建一组嵌套的输出元组集合。如上。

COGROUP 为每个不同的分组键值生成一个元组。每个元组的第一个字段就是那个键值。其他字段是各个关系中匹配该键值的元组所组成的 bag。第一个bag中包含A中有该键值的匹配元组，第二个bag同理。
如果某个键值在一个关系中没有匹配的元组，那么对应于这个关系的bag就未空。
COGROUP的默认类型outer连接。可以使用关键词OUTER来显式指明使用 outer连接,产生的结果相同。

D = COGROUP A BY $0, B BY $1 OUTER;

也可以使用INNER 关键字让COGROUP 使用内连接语义

D = COGROUP A BY $0 INNER, B BY $1;

output:

(1,{(1,Scarf)},{})
(2,{(2,Tie)},{(Hank,2),(Joe,2)})
(3,{(3,Hat)},{(Eve,3)})
(4,{(4,Coat)},{(Hank,4)})

扁平化输出结果：

F = FOREACH D GENERATE FLATTEN(A), B.$0;

输出：

(1,Scarf,{})
(2,Tie,{(Hank),(Joe)})
(3,Hat,{(Eve)})
(4,Coat,{(Hank)})

让所有输出结果都扁平化

G = COGROUP A BY $0 INNER, B BY $1 INNER;
H = FOREACH G GENERATE FLATTEN($1),FLATTEN($2);

输出：

(2,Tie,Hank,2)
(2,Tie,Joe,2)
(3,Hat,Eve,3)
(4,Coat,Hank,4)

这和上面的join 结果是一样的。

CROSS

CROSS 笛卡尔积。会将第一个关系中的每个元组和第二中的所有元组进行连接。这个操作的输出结果的大小是输入关系的大小的乘积。

I = CROSS A, B;

输出：

(1,Scarf,Hank,2)
(1,Scarf,Eve,3)
(1,Scarf,Ali,0)
(1,Scarf,Hank,4)
(1,Scarf,Joe,2)
(3,Hat,Hank,2)
(3,Hat,Eve,3)
(3,Hat,Ali,0)
(3,Hat,Hank,4)
(3,Hat,Joe,2)
(4,Coat,Hank,2)
(4,Coat,Eve,3)
(4,Coat,Ali,0)
(4,Coat,Hank,4)
(4,Coat,Joe,2)
(2,Tie,Hank,2)
(2,Tie,Eve,3)
(2,Tie,Ali,0)
(2,Tie,Hank,4)
(2,Tie,Joe,2)

GROUP

GROUP语句是对已个数据集中的数据进行分组。GROUP支持对键值进行分组，还可以使用表达式或者用户自定义函数作为分组键。

数据集A：

(Joe,cherry)
(Ali,apple)
(Joe,banana)
(Eve,apple)

根据第二个字符个数进行分组：

B = GROUP A BY SIZE($1);
DUMP B;

output:

(5,{(Eve,apple),(Ali,apple)})
(6,{(Joe,banana),(Joe,cherry)})

sort

数据集：

(2,3)
(1,2)
(2,4)

使用ORDER关键字自定按照某个或者某几个字段对数据进行排序。默认的排序方式是对具有相同类型的字段值使用自然序排序。

B = ORDER A BY $0, $1 DESC;

输出：

(1,2)
(2,4)
(2,3)

但是，对于排序后的结果集的后续处理，并不能保证一定按照排序的结果输出，所以通常只在获取结果前一步才使用ORDER排序。
LIMIT 就像sql中的limit一样，限制结果大小，快速获取结果。

D = LIMIT B 2;
DUMP D;
(1,2)
(2,4)

UNION

DUMP A;
(2,3)
(1,2)
(2,4)
DUMP B;
(z,x,8)
(w,y,1)
C = UNION A, B;
DUMP C;
(2,3)
(z,x,8)
(1,2)
(w,y,1)
(2,4)

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

云计算将带来商业模式革命概念股“千里挑一”

　　国金证券通信行业首席分析师陈运红：云计算将带来商业模式革命概念股“千里挑一” 　　江怡曼　　提到云计... [阅读全文]
虚拟化和云计算路向何方？

　　我们正处于一个有趣的历史节点。VMware公司的成功源于我们拥有的非常引人注目的价值主张——解决客户端-服务器时代的不... [阅读全文]
企业级虚拟化平台是云计算必由之路

　　6月20日，IBM新一代企业基础云平台研讨会在北京举行。IBM大中华区系统与科技部Power Systems高级产品经理谷建发表了主题演讲。谷... [阅读全文]
打造免费云平台十大与云有关开源项目

　　开源项目由于其开放、免费、自由灵活等特点深受广大开发者的喜爱。近年涌现了很多开源免费的东西深受欢迎。而云计算则是近段时间最热的科技名词，云计算... [阅读全文]
Oracle刘松：客户体验管理与社会化云服务平台

10月26日消息，由工信部信息化推进司指导，中国计算机用户协会与中国网上银行促进联盟主办的“2012年网银联盟大会暨电子银行创新颁奖典... [阅读全文]
胡斌：做大数据最终是要为公司带来变化的

10月24日“中国TMT国际商会月度英雄汇”在北京召开。胡斌在圆桌对话“大数据时代的机遇与挑战”中... [阅读全文]
确保云安全的五种服务器配置方法

　　越来越多的数据中心已经搬到了各种各样的云上，服务器配置是必须考虑的问题。　　云计算将是收缩数据中心的关键，显然这可能带来一些安全问题... [阅读全文]
跨入云计算时代传统服务器走将向何处？

　　云的出现，正在改变我们对于传统IT的观念认识。云并不像它的概念一样虚无缥缈，而是以各种形式出现在我们面前，而最让人耳熟能详的莫过于云存储和云计... [阅读全文]
解读透明计算：是云计算升级还是产业界革命

　　你知道云计算吗？不少读者可能会说，嗯，我听说过，但是具体是怎么定义还是不太了解。虽然概念上不是很明白，但起码云计算到现在已经是人尽皆知。不过就... [阅读全文]
十二大技巧保障云计算安全

　　1、确认现有的基础控制　　基础控制是企业安全理念的核心。它们包含了将近60个保护您企业最重要资产的安全控制。它们专注在确保云技术对您... [阅读全文]