我们经常需要汇总数据而不用把它们实际检索处出来,为此mysql提供了专门的函数。使用这些函数,mysql查询可用于检索数据,以便分析和报表的生成。这种类型的检索例子有以下几种:
上述的例子都需要对表中数据(而不是实际数据本身)汇总。因此,返回实际表数据是对时间和处理资源的一种浪费(更不用说带宽了)。
mysql提供了5个聚集函数。
聚集函数(aggregate function)运行在行组上,计算和返回单个值的函数。
函数 | 说明 |
---|---|
avg() | 返回某列的平均值 |
count() | 返回某列的行数 |
max() | 返回某列的最大值 |
min() | 返回某列的最小值 |
sum() | 返回某列值之和 |
下面简单介绍这些函数
先创建下面的表:
create table student( sid int primary key, sname varchar(20), ssex cahr(1) ); create table score( sid int primary key, sname varchar(20), smath int, senglish int );
avg()通过对表中行数计数并计算特定列值之和,求得该列的平均值。avg()可用来返回所有列的平均值,也可以用来返回特定列平均值。
avg()只能用来确定特定数值列的平均值,而且列名必须作为函数参数给出。为了获得多个列的平均值,必须使用多个avg()函数。
avg()函数忽略列值为null的行。
来使用avg()函数来查询成绩表score中数学成绩的平均分(自己随便加上几个数):
select avg(smath) as avg_smath from score;
avg()也可用用来确定特定列平均值,配合where子句。
count()函数确定表中行的数目或符合特定条件的行的数目。
count()函数有两种使用的方式:
比如:返回学生总数:
select count(*) from student;
返回女生总数(特定列):
select count(ssex) from student where ssex='女';
如果指定列名,则指定列的值为空的行被count()函数忽略,但如果count()函数中用的是星号(*),则不忽略。
max() 返回指定列中的最大值。max() 要求指定列名。
比如:返回成绩表中数学成绩的最高分:
select max(smath) from score;
虽然max()一般用来找出最大的数值或日期值,但mysql允许将它用来返回任意列中的最大值,包括返回文本列中的最大值。在用于文本数据时,如果数据按相应的列排序,则max()返回最后一行。min()函数也是,但是相反,返回最前面的行。
max()、min()都是忽略列值为null的行。
min() 返回指定列中的最小值。min() 要求指定列名。
比如:返回成绩表中数学成绩的最低分:
select min(smath) from score;
sum()用来返回指定列值的和(总计)。
比如返回一个班中的数学成绩的总分:
select sum(smath) from score;
利用标准的算术操作符,所有的聚集函数都可以用来执行多个列上的计算。
sum()函数忽略列值为null的行。
以上5个聚集函数都可以如下使用:
下面举例指定distinct参数的用法:比如成绩表中数学成绩的平均分,平均分只考虑各个不同的分数:
select avg(distinct smath) as avg_smath from score;
如果指定列名,则distinct只能用于count(),distinct不能用于count(*),因此不允许使用count(distinct),否则会产生错误。类似地,distinct必须使用列名,不能用于计算或表达式。
distinct可用于max()和min(),但是没有意义。
实际上select语句可根据需要包含多个聚集函数。
使用聚集函数,最好使用别名。
小结:聚集函数用来汇总数据,这些函数都是高效设计,它们返回的结果一般比你在自己的客户机应用程序中计算要快得多。
前面已经学习了sql聚集函数来汇总数据。但是,比如:要求出学生表中男生和女生各有多少人。可用使用两条语句分别打印。下面介绍另一种方式:分组。
分组:把数据分为多个逻辑组,以便能对每个组进行聚集计算。
分组时在select语句的group by子句中建立的。按照上面的例子,对学生表的男女生分组:
select ssex, count(ssex) as total from student group by ssex;
输出:
+---------+----------------+ | stu_sex | total | +---------+----------------+ | 女 | 6 | | 男 | 11 | +---------+----------------+ 3 rows in set (0.05 sec)
但是也可这样使用:
select ssex, count(*) as total from student group by ssex;
输出结果同上。
为什么会这样??因为使用了group by,就不必指定要计算和估值得每个组了。系统会自动完成。group by子句指示mysql分组数据,然后对每个组而不是整个结果集进行聚集。
在具体使用group by子句前,需要知道一些重要的规定:
使用with rollup关键字,可以得到每个分组以及每个分组汇总级别(针对每个分组)的值
比如:
select ssex, count(*) as total from student group by ssex with rollup;
输出:
+---------+-------+ | stu_sex | total | +---------+-------+ | 女 | 10 | | 男 | 16 | | null | 26 | +---------+-------+ 3 rows in set (0.05 sec)
引入一个函数:ifnull(expression, alt_value):ifnull() 函数用于判断第一个表达式是否为 null,如果为 null 则返回第二个参数的值,如果不为 null 则返回第一个参数的值。
select ifnull(ssex,'总计') as ssex, count(*) as total from student group by ssex with rollup;
输出:
+---------+-------+ | stu_sex | total | +---------+-------+ | 女 | 10 | | 男 | 16 | | 总计 | 26 | +---------+-------+ 3 rows in set (0.05 sec)
mysql允许过滤分组,规定包括哪些分组,排除哪些分组。但是where子句过滤指定的是行而不是分组。所以mysql提供了having子句,having子句类似于where,至今为止的所有类型的where子句都可以用having子句来替代。唯一的差别是where子句过滤行,而having子句过滤分组(即是先分组再过滤)。
比如:显示学生表的男生或者女生人数大于15个的。
select ssex, count(*) as total from student group by ssex having count(*)>=15;
注意:having子句在group by之后,因为是对分组的结果进行过滤。而where子句是对行进行过滤,所以必须在group by之前。所以where子句过滤的行可能会影响到group by的分组结果。
那么可以同时使用where子句和having子句吗??答案是可以的。
说一说排序(order by)和分组(group by)的区别:
排序 | 分组 |
---|---|
排序产生的输出 | 输出可能不是分组的顺序 |
任意列都可以使用(甚至非选择的列也可以使用) | 只能使用选择列或表达式列,而且必须使用每个选择列表达式 |
不一定需要 | 如果与聚集函数一起使用列(或表达式),则必须使用 |
上面表格的第一行,可以经常发现group by分组的数据确实是以分组顺序输出的,但情况并不总这样,它并不是sql规范所要求的。此外,用户可能会要求以不同于分组的顺序排序。仅因为你以某种方式分组数据,并不表示你需要以相同的方式排序输出。应该提供明确的brder by子句,即使其效果等同于group by子句的输出结果。
所以一般使用group by子句最好跟上order by子句。
那么在位置如何放置:order by子句一定是放在sql语句最后的。
所以修改上面的语句:例子举得不是很好,就看看怎么写。
select ssex, count(*) as total from student group by ssex having count(*)>=15 order by ssex;
小结:学习了如何用sql聚集函数对数据进行汇总计算。也介绍如何使用group up子句对数据组进行这些汇总金酸,返回每个组的结果。而且还学了having子句过滤特定的组,where和having之间以及order by和group by之间的差异
如对本文有疑问, 点击进行留言回复!!
MySQL-关系代数-并、交、差、等值连接、自然连接、左连接。。。
网友评论