当前位置：移动技术网 > IT编程>数据库>其他数据库 > Hive中的去重：distinct,group by与ROW_Number()窗口函数

Hive中的去重：distinct,group by与ROW_Number()窗口函数

2018年11月21日 | 移动技术网IT编程 | 我要评论

北京世纪同力家具,利齿青鱼群,皇室小萌狐

一、distinct,group by与row_number()窗口函数使用方法

1. distinct用法：对select 后面所有字段去重，并不能只对一列去重。

（1）当distinct应用到多个字段的时候，distinct必须放在开头，其应用的范围是其后面的所有字段，而不只是紧挨着它的一个字段，而且distinct只能放到所有字段的前面

（2）distinct对null是不进行过滤的，即返回的结果中是包含null值的

（3）聚合函数中的distinct,如 count( ) 会过滤掉为null 的项

2.group by用法：对group by 后面所有字段去重，并不能只对一列去重。

3. row_number() over()窗口函数

注意：row_number() over (partition by id order by time desc) 给每个id加一列按时间倒叙的rank值，取rank=1

select m.id,m.gender,m.age,m.rank

from (select id,gender,age,row_number() over(partition by id order by id) rank

from temp.control_201804to201806_unimp_demo_sk_ii_0803

where id!='na' and gender!='' or age!=''

) m

where m.rank=1

二、案例：

1.表中有两列：id ，superid，按照superid倒序排序选出前100条不同的id，如下：

1.方案一：子查询中对id,superid同时去重，可能存在一个id对应的superid不同，id这一列有重复的id，但是结果只需要一列不同的id，如果时不限制数量，则可以选择这种方法

%jdbc(hive)

create table temp.match_relation_3m_active_pampers_bcdcity_2million_180928_v5 as

select a.id

from (select distinct id,superid

from temp.match_relation_3m_active_pampers_bcdcity_180928_v2

order by superid desc

limit 100

) a

group by a.id

注意，对id去重时可以用gruop by 或者distinct id，两者去重后的id排序时一致的，但是加了distinct(group by)后，distinct字段自带排序功能，会先按照distinct后面的字段进行排序,即已经改变了子查询的中order by的排序，但是结果应该有的id是一样的，只是排序不同罢了。

方案二：因为要求按照superid倒序排序选出，而一个id对应的superid不同，必有大有小，选出最大的那一个，即可。同理若是按照superid正序排列，可以选出最小的一列

%jdbc(hive)

create table temp.match_relation_3m_active_pampers_bcdcity_2million_180928_v7 as

select a.id

from (select id,max(superid) as superid

from temp.match_relation_3m_active_pampers_bcdcity_180928_v2

group by id

order by superid desc

limit 100

) a

方案三：首先利用窗口函数row_number() over()窗口函数对id这一列去重，不能用distinct

或者group by对id,superid同时去重

%jdbc(hive)

create table temp.match_relation_3m_active_pampers_bcdcity_2million_180928_v11 as

select n.id

from (select m.id,superid

from (select id,superid,row_number() over(partition by id order by id) rank

from temp.match_relation_3m_active_pampers_bcdcity_180928_v2

) m

where m.rank=1

order by superid desc

limit 100

注意，以下代码中，窗口函数row_number() over（）的执行顺序晚于 order by superid desc，最终的结果并非 superid的倒叙排列的结果

%jdbc(hive)

create table temp.match_relation_3m_active_pampers_bcdcity_2million_180928_v9 as

select m.id

from (select id, superid,row_number() over(partition by id order by id) rank

from temp.match_relation_3m_active_pampers_bcdcity_180928_v2

order by superid desc

) m

where m.rank=1

group by m.id

limit 100

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]
字符串相似度处理函数

oracle里面查比如存储过程里面与表SALES有关jobs: SELECT * FROM (SELECT a.name,upper(b.what)AS... [阅读全文]
如何在 HBase Shell 命令行正常查看十六进制编码的中文？哈哈~

今天比较开心，只想哈哈~哈哈哈~ 啥也不多说了，直接看示例吧！绝对比我口才好~ 哈哈！Get到了吗？好意思不帮我分享嘛~哈哈~ 转载请注明出处！欢迎关注... [阅读全文]
一小时搭建实时数据分析平台

实时数据分析门槛较高，我们如何用极少的开发工作就完成实时数据平台的搭建，做出炫酷的图表呢？如何快速的搭建实时数据分析平台，首先我们需要实时数据的接入端... [阅读全文]
Kylin on Parquet 介绍和快速上手

Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟，但是存在着一定的局限性。因此，Kyligence 推出了 K... [阅读全文]
HBase Filter 过滤器之 Comparator 原理及源码学习

前言：上篇文章 "HBase Filter 过滤器概述" 对HBase过滤器的组成及其家谱进行简单介绍，本篇文章主要对HBase过滤器之比较器作一个补... [阅读全文]
hadoop 伪分布配置

配置 Hadoop 伪分布式任务配置说明: VMware 15 Centos 6.5 java -jdk 1.8 hadoop-2.6.0-cdh5.... [阅读全文]
安装 Hadoop 2.9.1 on Windows 10 64 bit (最全步骤整理)

1. Java 下载Java 1.8 64位版本https://java.com/en/download/. 如果不是64位java，在启动资源节点管理... [阅读全文]

网友评论


验证码：

Hive中的去重 ：distinct,group by与ROW_Number()窗口函数

2018年11月21日 | 移动技术网IT编程 | 我要评论

一、distinct,group by与row_number()窗口函数使用方法

1. distinct用法：对select 后面所有字段去重，并不能只对一列去重。

2.group by用法：对group by 后面所有字段去重，并不能只对一列去重。

3. row_number() over()窗口函数

二、案例：

1.表中有两列：id ，superid，按照superid倒序排序选出前100条不同的id，如下：

1.方案一：子查询中对id,superid同时去重，可能存在一个id对应的superid不同，id这一列有重复的id，但 是结果只需要一列不同的id， 如果时不限制数量，则可以选择这种方法

方案二：因为要求按照superid倒序排序选出，而一个id对应的superid不同，必有大有小，选出最大的那 一个，即可。 同理若是按照superid正序排列，可以选出最小的一列

方案三：首先利用窗口函数row_number() over()窗口函数对id这一列去重，不能用distinct

或者group by对id,superid同时去重

您可能感兴趣的文章:

相关文章:

网友评论

Hive中的去重：distinct,group by与ROW_Number()窗口函数

1.方案一：子查询中对id,superid同时去重，可能存在一个id对应的superid不同，id这一列有重复的id，但是结果只需要一列不同的id，如果时不限制数量，则可以选择这种方法

方案二：因为要求按照superid倒序排序选出，而一个id对应的superid不同，必有大有小，选出最大的那一个，即可。同理若是按照superid正序排列，可以选出最小的一列