当前位置：移动技术网 > IT编程>数据库>Mysql > MySQL 快速删除大量数据（千万级别）的几种实践方案详解

MySQL 快速删除大量数据（千万级别）的几种实践方案详解

2020年07月28日 | 移动技术网IT编程 | 我要评论

笔者最近工作中遇见一个性能瓶颈问题，mysql表，每天大概新增776万条记录，存储周期为7天，超过7天的数据需要在新增记录前老化。连续运行9天以后，删除一天的数据大概需要3个半小时（环境：128g, 32核，4t硬盘），而这是不能接受的。当然如果要整个表删除，毋庸置疑用

truncate table就好。

最初的方案（因为未预料到删除会如此慢），代码如下（最简单和朴素的方法）:

delete from table_name where cnt_date <= target_date

后经过研究，最终实现了飞一般(1秒左右)的速度删除770多万条数据，单张表总数据量在4600万上下，优化过程的方案层层递进，详细记录如下：

批量删除（每次限定一定数量），然后循环删除直到全部数据删除完毕；同时key_buffer_size 由默认的8m提高到512m

运行效果：删除时间大概从3个半小时提高到了3小时

（1）通过limit(具体size 请酌情设置）限制一次删除的数据量，然后判断数据是否删除完，附源码如下（python实现）：

def delete_expired_data(mysqlconn, day):
 mysqlcur = mysqlconn.cursor()
 delete_sql = "delete from table_name where cnt_date<='%s' limit 50000" % day
 query_sql = "select srcip from table_name where cnt_date <= '%s' limit 1" % day
 try: 
  df = pd.read_sql(query_sql, mysqlconn)
  while true:
   if df is none or df.empty:
    break
   mysqlcur.execute(delete_sql)
   mysqlconn.commit()

   df = pd.read_sql(query_sql, mysqlconn)
 except:
  mysqlconn.rollback()

（2）增加key_buffer_size

mysqlcur.execute("set global key_buffer_size = 536870912")

key_buffer_size是global变量，详情参见mysql官方文档：

delete quick + optimizetable

适用场景：myisam tables

why: myisam删除的数据维护在一个链表中，这些空间和行的位置接下来会被insert的数据复用。直接的delete后，mysql会合并索引块，涉及大量内存的拷贝移动；而optimize table直接重建索引，即直接把数据块情况，再重新搞一份（联想jvm垃圾回收算法）。

运行效果：删除时间大3个半小时提高到了1小时40分

具体代码如下：

def delete_expired_data(mysqlconn, day):
 mysqlcur = mysqlconn.cursor()
 delete_sql = "delete quick from table_name where cnt_date<='%s' limit 50000" % day
 query_sql = "select srcip from table_name where cnt_date <= '%s' limit 1" % day
 optimize_sql = "optimize table g_visit_relation_asset"
 try: 
  df = pd.read_sql(query_sql, mysqlconn)
  while true:
   if df is none or df.empty:
    break
   mysqlcur.execute(delete_sql)
   mysqlconn.commit()

   df = pd.read_sql(query_sql, mysqlconn)
  mysqlcur.execute(optimize_sql)
  mysqlconn.commit()
 except:
  mysqlconn.rollback()

表分区，直接删除过期日期所在的分区（最终方案—秒杀）

mysql表分区有几种方式，包括range、key、list、hash，具体参见官方文档。因为这里的应用场景日期在变化，所以不适合用range设置固定的分区名称，hash分区更符合此处场景

（1）分区表定义，sql语句如下：

alter table table_name partition by hash(to_days(cnt_date)) partitions 7;

to_days将日期（必须为日期类型，否则会报错:constant, random or timezone-dependent expressions in (sub)partitioning function are not allowed）转换为天数（年月日总共的天数），然后hash；建立7个分区。实际上，就是 days mod 7。

（2）查询出需要老化的日期所在的分区,sql语句如下：

"explain partitions select * from g_visit_relation_asset where cnt_date = '%s'" % expired_day

执行结果如下（partitions列即为所在分区）：

+----+-------------+------------------+------------+------+----------------+------+---------+------+---------+----------+-------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | extra |
+----+-------------+------------------+------------+------+----------------+------+---------+------+---------+----------+-------------+
| 1 | simple | table_name | p1 | all | cnt_date_index | null | null | null | 1325238 | 100.00 | using where |
+----+-------------+------------------+------------+------+----------------+------+---------+------+---------+----------+-------------+
1 row in set, 2 warnings (0.00 sec)

（3）optimize or rebuild partition,sql语句如下：

"alter table g_visit_relation_asset optimize partition '%s'" % partition

完整代码如下【python实现】，循环删除小于指定日期的数据：

def clear_partition_data(mysqlconn, day):
 mysqlcur = mysqlconn.cursor()
 expired_day = day
 query_partition_sql = "explain partitions select * from table_name where cnt_date = '%s'" % expired_day
 # optimize or rebuild after truncate partition
 try: 
  while true:
   df = pd.read_sql(query_partition_sql, mysqlconn)
   if df is none or df.empty:
    break
   partition = df.loc[0, 'partitions']
   if partition is not none:
    clear_partition_sql = "alter table table_name truncate partition %s" % partition
    mysqlcur.execute(clear_partition_sql)
    mysqlconn.commit()

    optimize_partition_sql = "alter table table_name optimize partition %s" % partition
    mysqlcur.execute(optimize_partition_sql)
    mysqlconn.commit()
   
   expired_day = (expired_day - timedelta(days = 1)).strftime("%y-%m-%d")
   df = pd.read_sql(query_partition_sql, mysqlconn)
 except:
  mysqlconn.rollback()

其它

如果删除的数据超过表数据的百分之50，建议拷贝所需数据到临时表，然后删除原表，再重命名临时表为原表，附mysql如下：

 insert into new
  select * from main
   where ...; -- just the rows you want to keep
 rename table main to old, new to main;
 drop table old; -- space freed up here

可通过： alter table table_name remove partitioning 删除分区，而不会删除相应的数据

参考：

1）具体分区说明

2）删除大数据的解决方案

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

************************************************************************

精力有限，想法太多，专注做好一件事就行

我只是一个程序猿。5年内把代码写好，技术博客字字推敲，坚持零拷贝和原创写博客的意义在于打磨文笔，训练逻辑条理性，加深对知识的系统性理解；如果恰好又对别人有点帮助，那真是一件令人开心的事

到此这篇关于mysql 快速删除大量数据（千万级别）的几种实践方案详解的文章就介绍到这了,更多相关mysql 快速删除大量数据内容请搜索移动技术网以前的文章或继续浏览下面的相关文章希望大家以后多多支持移动技术网！

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

MySQL学习日记（五）MySQL事务和字符集

MySQL事务和字符集1、事务当多个用户访问同一数据时，一个用户在更改数据的过程中可能有其它用户同时发起更改请求... [阅读全文]
MySQL学习7_数据库表数据查询

文章目录简单查询条件查询where比较条件查询逻辑运算符模糊查询 like范围查询简单查询select * fr... [阅读全文]
MySQL-关系代数-并、交、差、等值连接、自然连接、左连接。。。

如果本文对您有所帮助，可以点一下赞????最近找实习要用到数据库，刚好复习了一下，记录笔记1、传统的集合运算是二... [阅读全文]
mysql技术4--索引及执行计划

文章目录一.索引的介绍1. 索引的作用2. 索引的分类(算法)3. BTREE索引算法演变4. Btree索引功... [阅读全文]
MySQL substring()函数简介

Mysql中，SUBSTRING 函数从给定字符串中指定的位置开始返回一个指定长度的子字符串。语法1：SUBST... [阅读全文]
MySQL数据库的19个常用命令

MySQL常用名令1.登录mysql –h 主机名 –u用户名 –p密码2.显示所有数据库show databa... [阅读全文]
mysql安装问题和密码问题

第一步：下载mysql-5.7.17-winx64解压版本：http://dev.mysql.com/downl... [阅读全文]
【MySQL牛客】10.获取所有非manager的员工emp_no

问题描述获取所有非manager的员工emp_noCREATE TABLE `dept_manager` (`d... [阅读全文]
MySQL 百万级数据量分页查询方法及其优化

点击上方“罗晓胜”，马上关注，您的支持对我帮助很大/ 前言 /这是一篇关于mysql百万级数据处理优化的文章，百... [阅读全文]
更多MySQL的操作

MySQL的操作1 触发器的使用1.1 基本格式delimiter //# 修改结束符为//create tri... [阅读全文]

网友评论


验证码：

MySQL 快速删除大量数据（千万级别）的几种实践方案详解

2020年07月28日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论