当前位置：网络安全 > MySQL——关于删除/purge/删除加锁/删除大量数据/truncatedelete

MySQL——关于删除/purge/删除加锁/删除大量数据/truncatedelete

发布：2023-09-27 15:38

本篇介绍MySQL执行删除命令时的一些机制，包括：

MySQL如何删除一行数据？

解释为什么删除数据后表文件大小不变？

purge线程

为什么建议逻辑删除数据而非物理删除？为什么建议自增主键？

为什么建议删除数据的语句条件上加索引？

如何删除大量数据？truncate与delete/drop的区别？

MySQL如何删除一行数据？

InnoDB里的数据都是用B+树的结构组织的；

如图，要删掉R4这个记录，InnoDB引擎只会把R4这个记录标记为"删除"；如果之后要再插入一个ID在300和600之间的记录时，可能会复用这个位置；但是，磁盘文件的大小并不会缩小；

InnoDB的数据是按页存储的，如果删掉了一个数据页上的所有记录，那么整个页都可以被复用；

数据"空洞"导致页合并

如果相邻的两个数据页利用率都很小，系统就会把这两个页上的数据合到其中一个页上，另外一个数据页就被标记为可复用；

或者一次删除了整个页上的所有数据，这一整个数据页也会被标记为可复用；

为什么删除数据后表文件大小不变？

无论是删除记录还是整个页数据删除，磁盘上的文件不会变小，因为delete只是标记为已删除，而不是真正的物理删除，即表空间数据回收；

delete命令其实只是把记录的位置或者数据页标记为了mark del，在后台purge执行回收后，被删除数据部分对应的磁盘空间标记为"可用"，可以被后续写入操作使用，但磁盘文件的大小是不会变的；也就是说，通过delete命令是不能回收表物理空间的；

purge线程

本节介绍跟删除相关的purge线程相关的知识；

为什么MySQL InnoDB需要Purge操作？

明确这个问题的答案，首先还得从InnoDB的多版本并发控制（MVCC）开始；

"快照"是InnoDB在实现MVCC时用到的一致性读视图，用于支持RC（Read Committed，读提交）和RR（Repeatable Read，可重复读）隔离级别的实现；它没有物理结构，作用是事务执行期间用来定义“我能看到什么数据”；

InnoDB 利用了“所有数据都有多个版本”的这个特性，实现了“秒级创建快照”的能力；

但是这里"快照"并不是说把此刻的整库数据拷贝一份，而是类似git，对于每一行数据，仅记录其在某一次事务中的增量更新，因此大部分的数据都是没有更新的，从而不会像"全量物理拷贝"那样占用巨大的内存；

也就是说，对于数据表中的一行记录，在数据库的不断更新下，可能存在多个数据版本 (row)，而每个数据版本有自己的 row trx_id；如下图所示，就是一条记录被多个事务连续更新后的过程；

由图可知：语句所在的事务ID与语句更新结果的数据版本的row trx_id一一对应；

实际上，历史版本数据的值并不会物理存在，而是在每次需要的时候根据当前版本和 undo log 计算出来的；

在事务不断的执行过程中，undo log占用的空间会不断地扩张；

另外，对于更新和删除操作，InnoDB并不是真正的删除原来的记录，而是设置原记录的delete mark标志位为1，也就是说原数据依然存于数据页上；那么可以标记为mark delete的数据都有哪些类型呢？包括主键记录、二级索引记录：

因此为了清除数据Page和Undo Log膨胀的问题，需要引入purge机制进行回收；

purge流程简介

purge的主要任务是将数据库中已经mark del的数据删除，另外也会批量回收undo pages；而数据库的数据页很多，要清除被删除的数据，不可能遍历所有的数据页；

由于所有的变更都有undo log，因此，执行purge时，MySQL从undo作为切入点，在清理过期的undo的同时，也将数据页中的被删除的记录一并清除；

一个关于删除数据后磁盘空间再次利用的实验

1.初始化表t1； session1插入一定数量的数据；在 session2中观察到表的t1.ibd大小在增加；

2. session1删除t1所有记录；执行后稍等等片刻（等purge线程自动清理数据、master线程将数据从缓存落盘），这时候在 session2中观察到t1.ibd文件体积一点也没有减少；

3. session1重新执行少量的插入操作；在 session2中观察到t1.ibd文件体积并没有再次增长；

原因：purge线程将上述实验中被删除数据部分对应的磁盘空间标记为可用，可以被后续写入操作使用，这样就不用再次分配磁盘空间了；

本章参考：

阿里云-MySQL Innodb Purge简介

MySQL purge线程相关参数

为什么建议逻辑删除数据而非物理删除？为什么建议自增主键？

逻辑删除的一个天然的好处是方便数据的恢复和归档查询；此外，另一个是避免删完数据导致的页利用率降低，低于阈值时会产生的相邻叶子节点的页合并；

使用自增主键的好处就是避免频繁的"页分裂"；结合B+数的结构，叶子节点是有序的，如果数据是按照索引递增顺序插入的，页写满申请新页时，是不移动原有页面的任何记录的，因此索引是紧凑的；注意，这里的"按照索引递增顺序插入"并不是说一定要自然数值连续，而是大小关系连续即可，如 1 2 4 7 9；这也是为什么推荐使用自增主键的原因；