当前位置：移动技术网 > IT编程>数据库>MSSQL > 深入学习SQL Server聚合函数算法优化技巧

深入学习SQL Server聚合函数算法优化技巧

2017年12月08日 | 移动技术网IT编程 | 我要评论

裙子下的野兽,谭力被调查,泰安封禅大典

sql server聚合函数在实际工作中应对各种需求使用的还是很广泛的，对于聚合函数的优化自然也就成为了一个重点，一个程序优化的好不好直接决定了这个程序的声明周期。sql server聚合函数对一组值执行计算并返回单一的值。聚合函数对一组值执行计算，并返回单个值。除了 count 以外，聚合函数都会忽略空值。聚合函数经常与 select 语句的 group by 子句一起使用。

一.写在前面

如果有对sql server聚合函数不熟或者忘记了的可以看我之前的一片博客。

本文中所有数据演示都是用microsoft官方示例数据库：northwind，至于northwind大家也可以在网上下载。

二.sql server标量聚合

2.1.概念：在只包含聚合函数的 select 语句列列表中指定的一种聚合函数（如 min()、max()、count()、sum() 或 avg()）。当列列表只包含聚合函数时，则结果集只具有一个行给出聚合值，该值由与 where 子句谓词相匹配的源行计算得到。

2.2.探索标量聚合：

我们先用sql server的"包括实际的执行计划"来看看一个简单的流聚合count()来看看表里数据所有的行数。

再通过set showplan_all on(关于输出中包含的列更多信息可以在链接中查看)来看看有关语句执行情况的详细信息，并估计语句对资源的需求。

通过set showplan_all on我们来看看count()具体做了那些事情:

索引扫描：扫描当前表的行数
流计算：计算行数的数量
计算标量：将流计算出来的结果转化为适当的类型。(因为索引扫描出来的结果是根据表中数据的大小决定的，如果表中数据很多的话，count是int类型就会有问题，所以在最终返回的时候需要将默认类型(数值一般默认类型是big)转成int类型。)
小结：通过set showplan_all on我们可以查看sql server聚合函数在给我们呈现最终效果的时候，为这个效果做了些什么事情。

2.3.标量聚合优化技巧：

我们通过两个比较简单的sql查询来看看他们的区别

复制代码代码如下:

select count(distinct shipcity) from ordersselect count(distinct orderid) from orders

从上图中可以看到，其实这两个查询从语句上来说没什么太大的区别，但是为什么开销会不一样，一个是查询城市一个是查询订单号。这是因为其实distinct对于orderid查询来说，是没有什么意义的，因为orderid是主键，是不会有重复的。而shipcity是会有重复的，sql server的去重机制在去重的时候，会有一个排序的过程。这个排序还是比较消耗资源的。

对于数据量比较大的表其实不是很建议对大表排序或者对大表的某个重复次数多的字段去重运算。所以我们这里可以对shipcity进行优化一下。可以对shipcity创建一个非聚集索引。

复制代码代码如下:

create index index_shipcity on orders(shipcity desc)go

从上图中可以看到，加了索引以后count(distinct shipcity)的查询变成了两个流聚合，而没有了排序，节省了开销。

总结：对于标量聚合从上面的例子大家可以看到，标量聚合优缺点很明显:

sql server标量聚合优点：算法比较简单直观，适合非重复值的聚合操作。sql server标量聚合缺点：性能较差(需要排序)，不适合重复值的聚合操作。
优化技巧:尽量避免排序产生，将分组字(group by)段锁定在索引覆盖范围内

三.sql server哈希聚合

3.1.概念：

哈希(hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。)

哈希聚合的内部实现方法和哈希连接的实现机制一样，需要哈希函数的内部运算，形成不同的哈希值，依次并行扫描数据形成聚合值。

3.2.背景：

为了解决流聚合的不足，应对大数据的操作，所以哈希聚合就诞生了。

3.3.分析：

来看看两个简单的查询。

shipcountry和customerid的分组查询看上去很类似，但是为什么执行计划会不同呢？这是因为shipcountry包含了大量的重复值，customerid重复值非常少，所以sql server系统给shipcountry推送的哈希聚合，而customerid推送的是流聚合。也就是说sql server系统会动态的根据查询的情况选择合适的聚合方式。所以我们在做sql优化的时候不能仅根据sql语句来优化，还得结合具体数据分布的环境。

四.运算过程监控指标

4.1.监控元素：

可视化查看运行时间t-sql语句查询时间占用内存t-sql语句查询io

4.2.可视化查看运行时间：

4.3.t-sql语句查询时间：

4.4.占用内存：

4.5.t-sql语句查询io：

关于监控元素还有很多，这里就列举几个。

sql server 聚合函数算法优化技巧差不多就介绍到这里，希望对大家优化聚合函数算法有所帮助。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

YourSQLDba低版本的一个Bug的浅析

帮人分析解决一个YourSQLDba备份报错问题，个人觉得有点意思，顺手记录一下分析思路，大体解决思路如下：首先，找到YourSQLDba作业Your... [阅读全文]
sql某个日期是当年的第几周

/* *周一作为一周的开始 *当年的1月1号所在的周算作第一周 */ CREATE function GetWeekIndexFirstDate ( @... [阅读全文]
sqlserver 数据库迁移

业务情景客户环境是系统A的1.0版本，开发环境是系统A的2.0版本。2.0版本对于数据库有部分变更（主要是新增表和字段，不涉及字段删除和变更）。这个时... [阅读全文]
数据库SQL---范式

1、数据冗余导致的问题：冗余存储、更新异常、插入异常、删除异常。 2、函数依赖：一种完整性约束。在关系模式r(R)中，α属于R，β属于R。 1）α函数... [阅读全文]
sql server如何用不同语种语言显示报错的错误消息

问题：生产环境的操作系统和数据库可能是英文版的，而我们的母语是中文，如果英语能力差点，可能有时对英语环境下的数据库脚本报错的英文提示看不懂，如果直接拿英... [阅读全文]
数据库SQL---查询

1、查询所有列 select *from emp;--*表示所有的，from emp表示从emp表中查询。 2、查询指定列 select empno,e... [阅读全文]
数据库SQL---数据库、基本表、视图、索引的定义、修改、删除

1、SQL（结构化查询语言）的组成：数据定义语言DDL、数据操纵语言DML、数据控制语言DCL、其他。 2、SQL语言的功能： 1）数据查询：SELEC... [阅读全文]
对比索引、视图、游标、存储过程和触发器

1、索引 1-1、索引的概述我们把一个表中的一列或者多列和列中元素所在表中记录的物理地址组合成一个新的表。这个表的记录大致为列的内容和该列所在记录的物... [阅读全文]
在 Azure CentOS VM 中配置 SQL Server 2019 AG - (上)

前文假定您对Azure和SQL Server HA具有基础知识假定您对Azure Cli具有基础知识目标是在Azure Linux VM上创建一个... [阅读全文]
在 Azure CentOS VM 中配置 SQL Server 2019 AG - (下)

配置 Internal Load Balancer 创建load balancer 我的三台VM都位于sqldemoVNET/linuxsubnet子网... [阅读全文]

网友评论


验证码：

深入学习SQL Server聚合函数算法优化技巧

2017年12月08日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论