MySQL使用分区表一定能带来性能提升吗？

By adminmysql360On 2022年8月10日2022年8月9日

我们在对表进行分区设计时，需要明白的是，它是一种对数据进行物理分区的数据管理方式。

什么场景下应该使用分区表？这有时像是一个哲学问题，因为不同的业务场景使用的数据库肯定技术肯定是不同的，另外对表进行分区的同时，要配合着数据库的表结构设计、索引设计等不同技术一同来做到最优实现。

这篇文章，将会结合 MySQL 数据库介绍分区表的使用、注意事项以及有哪些误区，希望对大家学习分区表的相关知识能提供一点帮助，从而在自己的业务实践表分区的最优设计。

如何进行表分区？

我们可以从一个算法来熟悉它，就是“分区函数”，分区表就是把N张具有相同物理表结构的表通过分区函数组成一张逻辑大表。那么 MySQL 数据库有RANGE、LIST、HASH、KEY、COLUMNS 这些分区函数。

有了分区函数，还要指定在哪些表列上应用分区函数，也就是所谓的“分区列”。

需要特别注意的是，对 MySQL 表进行分区设计时，进行分区计算的列必须是联合主键的一部分，否则我们创建分区表时会报错，参见下面的SQL示例：

CREATE TABLE t (

    a INT,

    b INT,

    c DATETIME(6),

    d VARCHAR(32),

    e INT,

    PRIMARY KEY (a,b)

)

partition by range columns(c) (

    PARTITION p0000 VALUES LESS THAN ('2019-01-01'),

    PARTITION p2019 VALUES LESS THAN ('2020-01-01'),

    PARTITION p2020 VALUES LESS THAN ('2021-01-01'),

    PARTITION p9999 VALUES LESS THAN (MAXVALUE)

);

ERROR 1503 (HY000): A PRIMARY KEY must include all columns in the table's partitioning function (prefixed columns are not considered).

在创建表 t 时，给列 a、b 设置了联合主键，然后根据列 c（时间列）进行拆分数据，这样MySQL就会根据时间范围把不同数据放到不同分区中。

理论上这样没问题，但我们可以看到出错了，报错信息的意思是：分区表的主键一定要包含分区函数的列。

基于该错误提示，我们需要稍微改下创建表的SQL，让主键也包含列 c，参见如下SQL语句：

CREATE TABLE t (

    a INT,

    b INT,

    c DATETIME,

    d VARCHAR(32),

    e INT,

    PRIMARY KEY (a,b,c),

    KEY idx_e (e)

)

partition by range columns(c) (

    PARTITION p0000 VALUES LESS THAN ('2019-01-01'),

    PARTITION p2019 VALUES LESS THAN ('2020-01-01'),

    PARTITION p2020 VALUES LESS THAN ('2021-01-01'),

    PARTITION p9999 VALUES LESS THAN (MAXVALUE)

);

这回可以正常建表了，执行完SQL后，我们可以在MySQL物理存储硬盘上看到p0000、p2019、p2020、p9999这四个分区对应的 ibd 文件：

t#p#p0000.ibd  t#p#p2019.ibd  t#p#p2020.ibd  t#p#p9999.ibd

当我们往表 t insert 不同时间c列的数据时，这些数据就会落在不同的分区里，最终也就是放在不同的 ibd 文件里了。

因此我们可以这样理解：MySQL 中的分区表是把一张表拆成了多张独立的小表，并且这些表有自己的索引，逻辑上看还是一张表，但物理上它们的数据是存储在不同文件中的。

由此，又出现一个新问题，分区表和普通表的索引有区别吗？分区表是如何实现唯一索引的？

分区表的唯一索引有什么要注意的地方？

当我们对MySQL数据库中的表进行分区后，就会出现“局部”和“全局”的概念，对于分区表的索引，都是局部索引，没有全局。

这就代表，每个分区里的索引都是独立的。

所以我们要在分区表上建唯一索引时，需要把所有分区列加上，否则唯一索引会添加失败。

还是拿表 t 举例，在列 d 上增加一个唯一索引：

ALTER TABLE t ADD UNIQUE KEY idx_d(d);

ERROR 1503 (HY000): A UNIQUE INDEX must include all columns in the table's partitioning function (prefixed columns are not considered).

毫无疑问，出错了，因为我们的分区列是 c，结合分区表的唯一索引必须包含分区函数中所有列的准则。我们修改下创建唯一索引的SQL：

ALTER TABLE t ADD UNIQUE KEY idx_d(d,c);

这回没问题了。

分区表一定能带来性能提升吗？

先说答案：NO！

一般根据业务场景，有两类数据库应用，一类是OLTP(在线事务处理)，如博客、电子商务、网游等；另一类是OLAP(在线分析处理)，如数据仓库、数据集市。

分区只能提升OLAP应用的查询性能，为什么？

因为OLAP应用的特征是需要频繁查询扫描全表，如果分区了，只需要扫描对应分区的数据即可。

相反OLTP应用大多是通过索引返回表里若干记录，绝大部分场景不会从一张大表中拿取超过10%的数据。

我们可以结合MySQL的B+索引特性，来分析下表分区的查询效率。

假设我们给上表 t insert 1000w条数据，那此时B+树的高度为3，若将表 t 分为10个分区，则每张小表100W条数据的B+树高度则是2。

若查询用到的索引在分区列上，则从原表2到3次IO可以提升到2次IO。

但若查询用到的索引在其它列上，则最坏的情况可能需要10 * 2 = 20次IO。

所以，分区能不能带来查询性能提升，得看不同的业务系统需求和表设计。

浏览量: 745