当前位置：移动技术网 > IT编程>数据库>MSSQL > 针对distinct疑问引发的一系列思考

针对distinct疑问引发的一系列思考

2017年12月08日 | 移动技术网IT编程 | 我要评论

金莎发文报平安,groupon模式,小鸠图片

有人提出了这样一个问题，整理出来给大家也参考一下

假设有如下这样一张表格：

这里的数据，具有如下的特征：在一个departmentid中，可能会有多个name，反之也是一样。就是说name和departmentid是多对多的关系。

现在想实现这样一个查询：按照departmentid排完序之后（第一步），再获取name列的不重复值（第二步），而且要保留在第一步后的相对顺序。以本例而言，应该返回三个值依次是：acb

我们首先会想到下面这样一个写法

select distinct name from sample order by departmentid

从语义上说，这是很自然的。但是很可惜，这个语句根本无法执行，错误消息是：

这个错误的意思是，如果使用了distinct(去重复值），则出现在orderby后面的字段，必须也出现在select后面，但如果departmentid如果也真的出现在select后面，显然是不会有重复值的，所以结果肯定也是不对的。

select distinct name,departmentid from sample order by departmentid

那么，既然disinct 与orderby结合起来用会有这个的一个问题，我们是否有可能变通一下，例如下面这样：

select distinct a.name
from (select top 100 percent name from sample order by departmentid) a

想比较之前的写法，我们用到了子查询技术。同样从语义上看，仍热是很直观明了的。我想先按照departmentid进行排序, 然后再去重复值。但是返回到结果是下面这样的：

虽然确实去除了重复值，但返回的顺序却是不对的。我们希望是先按照departmentid排序之后，然后去除重复值，并且保留排序后的相对顺序。

为什么会出现上面这个结果呢？其实是因为distinct本身是会做排序的，而且这个行为是无法更改的（下图的执行计划中可以看到这一点）。所以其实我们之前做的order by在这里会失去意义。【实际上，如果观察ado.net entity framework等orm工具中生成的类似的一个查询，它会自动丢弃order by的设置】

那么，这样的情况下，是不是就不可能实现需求了呢？虽然说，这个需求并不多见，绝大部分时候，distinct作为最后一个操作，做一次排序是合乎情理的。

我是这样考虑到，既然distinct的这个行为是内置的，那么是否可以绕过这个操作呢？最终我用的一个解决方案是：我能不能把每个name都编上一个编号，例如有两个a的话，第一个a我为它编号为1，第二个编号为2，以此类推。然后，查询的时候，我先排序，然后筛选那些编号为1的name，这样其实也就实现了去重复值了。

sql server 2005开始提供了一个row_number的功能，结合这个功能，我实现了下面这样的查询：

select a.name from 
(select top 100 percent
name,departmentid,row_number() over(partition by name order by departmentid) row
from sample order by departmentid) a
where a.row=1
order by a.departmentid

然后，我得到了下面这样的结果，我推敲下来，这应该是符合了之前提到的这个需求的

相比较而言，这个查询的效率会低一些，这个是可以预见的（可以通过下图看出一点端倪）。但如果需求是硬性的，那么牺牲一些性能也是不奇怪的。当然，我们可以再研究看看是否有更优的一些写法。无论如何，使用内置标准的实现，通常都是相对较快的。

以上就是关于distinct疑问引发的一系列思考，希望对大家的学习有所帮助。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

sql某个日期是当年的第几周

/* *周一作为一周的开始 *当年的1月1号所在的周算作第一周 */ CREATE function GetWeekIndexFirstDate ( @... [阅读全文]
sqlserver 数据库迁移

业务情景客户环境是系统A的1.0版本，开发环境是系统A的2.0版本。2.0版本对于数据库有部分变更（主要是新增表和字段，不涉及字段删除和变更）。这个时... [阅读全文]
数据库SQL---范式

1、数据冗余导致的问题：冗余存储、更新异常、插入异常、删除异常。 2、函数依赖：一种完整性约束。在关系模式r(R)中，α属于R，β属于R。 1）α函数... [阅读全文]
sql server如何用不同语种语言显示报错的错误消息

问题：生产环境的操作系统和数据库可能是英文版的，而我们的母语是中文，如果英语能力差点，可能有时对英语环境下的数据库脚本报错的英文提示看不懂，如果直接拿英... [阅读全文]
数据库SQL---查询

1、查询所有列 select *from emp;--*表示所有的，from emp表示从emp表中查询。 2、查询指定列 select empno,e... [阅读全文]
数据库SQL---数据库、基本表、视图、索引的定义、修改、删除

1、SQL（结构化查询语言）的组成：数据定义语言DDL、数据操纵语言DML、数据控制语言DCL、其他。 2、SQL语言的功能： 1）数据查询：SELEC... [阅读全文]
对比索引、视图、游标、存储过程和触发器

1、索引 1-1、索引的概述我们把一个表中的一列或者多列和列中元素所在表中记录的物理地址组合成一个新的表。这个表的记录大致为列的内容和该列所在记录的物... [阅读全文]
在 Azure CentOS VM 中配置 SQL Server 2019 AG - (上)

前文假定您对Azure和SQL Server HA具有基础知识假定您对Azure Cli具有基础知识目标是在Azure Linux VM上创建一个... [阅读全文]
在 Azure CentOS VM 中配置 SQL Server 2019 AG - (下)

配置 Internal Load Balancer 创建load balancer 我的三台VM都位于sqldemoVNET/linuxsubnet子网... [阅读全文]
数据库SQL---关系模型与关系代数

1、关系数据库：表的集合，即关系的集合。关系数据库=关系数据库模式（型）+关系数据库内容（值） 1）域：一组具有相同数据类型的值的集合。 2）笛卡尔积... [阅读全文]

网友评论


验证码：

针对distinct疑问引发的一系列思考

2017年12月08日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论