当前位置：移动技术网 > IT编程>数据库>Mysql > MySQL的一条慢SQL查询导致整个网站宕机的解决方法

MySQL的一条慢SQL查询导致整个网站宕机的解决方法

2017年12月12日 | 移动技术网IT编程 | 我要评论

叶良辰聊天记录,猫扑另类情感,海口经济学院录取分数线

直接切入正题吧:

通常来说，我们看到的慢查询一般还不致于导致挂站，顶多就是应用响应变慢
不过这个恰好今天被我撞见了，一个慢查询把整个网站搞挂了
先看看这个sql张撒样子：

# query_time: 70.472013 lock_time: 0.000078 rows_sent: 7915203 rows_examined: 15984089 rows_affected: 0
# bytes_sent: 1258414478
use js_sku;
set timestamp=1465850117;
select
ss_id, ss_sa_id, ss_si_id, ss_av_zid, ss_av_fid, ss_artno,
ss_av_zvalue, ss_av_fvalue, ss_av_zpic, ss_av_fpic, ss_number,
ss_sales, ss_cprice, ss_price, ss_stock, ss_orderid, ss_status,
ss_add_time, ss_lastmodify
from js_sgoods_sku
where ss_si_id = 0 and ss_status > 0
order by
ss_orderid desc, ss_av_fid asc;
这里贴出来的就是 mysql slow log 的信息，查询时间用了高达 70s！！
看到慢查询我们一般第一反应是这个语句没有用到索引？或者是索引不合理么？那我们会去看看执行计划：

这个看起来似乎用到了索引，可是为什么扫描到行还是这么多呢？那我们就去看看表结构了，期望能从中找到点有价值的东西：
我们看到如下可用信息：
key `ss_si_id` (`ss_si_id`,`ss_av_zid`,`ss_av_fid`) using btree,
`ss_si_id` int(11) unsigned not null default '0' comment '对应js_sgoods_info.si_id',

我们看到索引似乎还能比较能够接受，但是我们看到这个 ss_si_id 这个字段实际上是 goods_info 表的主键，也就是说它的离散程度应该是很大的，也就是区分度很大。
其实到这一步我们基本上可以认为是由于我们这个表里边有很多 ss_si_id=0 导致，不过我们可以进一步的来证实我们的猜想：

1. 首先我们可以先确定我们的统计信息没有问题
2. 其次我们再count ss_si_id=0 的这个值有多少数据，来进一步验证我们的猜想。

我们可以看到 ss_si_id 的离散程度（cardinality）没有增加反而有向下波动的趋势，因为这个信息是采集部分页的来的，而每个页上边数据分布是不一样的，导致我们这个索引收集的统计信息就回有所变化。

好吧，到这里我们可以认为我们的统计信息没有失效，那么我们就看数据的分别情况咯：

+--------------++----------++------------------+
| ss_si_id=0; || count(*) || 7994788/19048617 |
+--------------++----------++------------------+
| 7994788 || 19048617 || 0.4197 |
+--------------++----------++------------------+

额，不看不知道，一看吓一跳：我们这个表里边存在有大量的 ss_si_id＝0 的情况，占了整个表数据量的 41% ！！！

好吧问题找到了，那么接下来我们需要知道，为什么这个sql语句会导致挂站呢？

我们通过观看应用程序服务器的监控看到一些信息：我们的 goods_service 这个服务异常：异常情况如下：

1. cpu 长期占用100% ＋
2. jstatck pid 无法dump 内存堆栈信息，必须强制dump －f
3. dump 出来的内存信息发现，这个进程里边所有线程均处于 blocked 状态
4. 通过jstat －gcutil 看到 fgc 相当频繁，10s左右就fgc一次
5. 内存占用超过了分配的内存

那么最终的原因就是因为上边的慢查询查询了大量数据（最多有700w行数据），导致goods_service 内存暴涨，出现服务无法响应，进一步的恶化就是挂占

ok，知道了为什么会挂占，那么我们是如何解决这个问题的呢？
既然我们知道是由于查询了 ss_si_id＝0 导致的，那么我们屏蔽掉这个sql不就好了么。屏蔽的办法可以有多种：
1. 我们程序逻辑判断一下这类型的查询如果有查询 ss_si_id＝0 的一律封杀掉
2. 我们改改sql配置文件，修改sql语句

我们发现db服务器上存在大量的这个慢查询，而且db服务器负载已经从 0.xx 飙升到了 50+ 了，随之而来的连接数也飙升的厉害，如果再不及时处理，估计db服务器也挂掉了

那么我们最终采取以下处理办法：
1.运维配合研发修改sql语句我们在这个where 条件中添加了一个条件： and ss_si_id <> 0 ,在mysql之行计划层屏蔽掉此sql;
2.dba 开启kill 掉这个查询语句，避免db服务器出现down机的情况，当然这个就用到了我们的 pt-kill 工具，不得不说这个工具相当好用

总结（经验与教训）：
1.类似这种查询 default 值的 sql ，我们应该从源头上杜绝这类查询
2.限制查询结果集大小，避免因查询结果集太大导致服务死掉

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

MySQL查看和修改事务隔离级别的实例讲解

查看事务隔离级别在 mysql 中，可以通过show variables like '%tx_isolation%'或select @@tx_isolation... [阅读全文]
小白安装登录mysql-8.0.19-winx64的教程图解(新手必看)

一、下载安装包（64位）mysql官网下载链接：点击下载下拉网页找到下图链接点击上述链接，找到下图链接选择如图版本点击下载。二、安装mysql数据库解压安装包，... [阅读全文]
MySQL数据库对敏感数据加密及解密的实现方式

大数据时代的到来，数据成为企业最重要的资产之一，数据加密的也是保护数据资产的重要手段。本文主要在结合学习通过mysql函数及python加密方法来演示数据加密的... [阅读全文]
Navicat连接MySQL时报10060、1045错误及my.ini位置问题

navicat连接数据库的10060及1045报错，mysql8.0.18的my.ini文件在哪出现这种现象的原因是3306端口被被防火墙禁掉，无法连接到该端口... [阅读全文]
windows10下 MySQL msi安装教程图文详解

一、下载1、点击mysql msi官网最新下载或复制链接。2、根据自己的需求进行下载，这里选择的是windows (x86, 32-bit), msi ins... [阅读全文]
mysql update语句的执行过程详解

以前有过一篇关于mysql查询语句的执行过程，这里总结一下update语句的执行过程。由于update涉及到数据的修改，所以，很容易推断，update语句比se... [阅读全文]
Mysql事务隔离级别原理实例解析

引言大家在面试中一定碰到过说说事务的隔离级别吧？老实说，事务隔离级别这个问题，无论是校招还是社招，面试官都爱问！然而目前网上很多文章，说句实在话啊，我看了后我都... [阅读全文]
简单了解MySQL union all与union的区别

union 是对数据进行并集操作，不包括重复行，同时进行默认排序union all 是对数据进行并集操作，包括重复行，不进行排序举例说明：创建数据库表：crea... [阅读全文]
MySQL case when使用方法实例解析

首先我们创建数据库表：create table `t_demo` ( `id` int(32) not null, `name` varchar(255) de... [阅读全文]
mysql事务管理操作详解

本文实例讲述了mysql事务管理操作。分享给大家供大家参考，具体如下：本文内容：什么是事务管理事务管理操作回滚点默认的事务管理首发日期：2018... [阅读全文]

网友评论


验证码：

MySQL的一条慢SQL查询导致整个网站宕机的解决方法

2017年12月12日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论