《高性能MySQL》之MySQL查询性能优化

为什么查询会慢?

响应时间过长。如果把查询看做是一个任务,那么它由一系列子任务组成,每个子任务都会消耗一定的时间。如果要优化查询,实际上优化其子任务,要么消除其中一些子任务,要么减少子任务的执行次数,要么让子任务运行得更快。

查询的生命周期:

客户端->服务器->服务器上解析->生成执行计划->执行->返回结果给客户端。

其中”执行”包括大量为了检索数据到存储引擎的调用以及调用后的数据处理,包括排序、分组等。

慢查询:优化数据访问

查询性能低下最基本的原因:访问的数据太多。

低效查询分析:

1.确认应用程序是否在检索大量超过需要的数据;

2.确认MySQL服务器层是否在分析大量超过需要的数据行;

是否向数据库请求了不需要的数据

典型案例(主要体现为了省事,使用SELECT *):

  • 查询不需要的记录
  • 多表关联时返回全部列
  • 总是取出全部列
  • 重复查询相同数据

MySQL是否在扫描额外的记录

在确定查询只返回需要的数据以后,接下来看查询为了返回结果是否扫描过多的数据。对于MySQL,最简单的衡量查询开销的三个指标:

响应时间

响应时间包含服务时间和排队时间。

服务时间是指数据库处理这个查询真正花了多长时间。

排队时间是指服务器因为等待某些资源而没有真正执行查询的时间,可能等I/O操作完成,也可能等待行锁。

扫描的行数和返回的列数

在一定程度上能够说明该查询找出需要的数据的效率高不高。
理想情况下扫描行数和返回的行数应该是相同的。

扫描的行数和访问类型

访问类型主要指全表扫描、索引扫描、范围扫描、唯一索引查询、常数引用。

一般MySQL能够使用如下三种方式应用WHERE条件,从好到坏依次为:

  • 在索引中使用WHERE条件来过滤不匹配的记录。这是存储引擎层完成的。
  • 使用索引覆盖扫描(在Extra列中出现了Using index)来返回记录,直接从索引中过滤不需要的记录并返回命中的结果。这是在MySQL服务器层完成的,但无须再回表查询记录。
  • 从数据表中返回数据,然后过滤不满足条件的记录(在Extra列中出现Using Where)。这在MySQL服务器层完成,MySQL需要先从数据表读出记录然后过滤。

如果发现查询需要扫描大量的数据但只返回少数的行,那么通常可以尝试下面的技巧去优化它:

  • 使用索引覆盖扫描,把所有需要用的列都放在索引中,这样存储引擎无须回表获取对应行就可以返回结果了。
  • 改变库表结构。例如使用单独的汇总表。
  • 重写这个复杂查询,让MySQL优化器能够以更优化的方式执行这个查询。

重构查询的方式

复杂查询拆分多个简单查询

切分查询

将大查询拆分为小查询,每个查询功能完全一样,只完成一小部分,每次只返回一小部分查询结果。

分解关联查询

用分解关联查询的方式重构查询有如下优势:

  • 让缓存效率更高。
  • 将查询分解后,执行单个查询可以减少锁的竞争。
  • 在应用层做关联,可以更容易对数据库进行拆分,更容易做到高性能和可扩展。
  • 查询本身效率也可能会有所提升。
  • 可以减少冗余记录的查询。
  • 相当于在应用中实现了哈希关联,而不是使用MySQL的嵌套循环关联。
  • 查询执行的基础

    1.客户端发送一条查询给服务器。

2.服务器先检查查询缓存,如果命中缓存,则立刻返回存储在缓存中的结果。否则进入下一阶段。

3.服务器端进行SQL解析、预处理,再由优化器生成对应的执行计划。

4.MySQL根据优化器生成的执行计划,调用存储引擎的API来执行查询。

5.将结果返回给客户端。

优化特定类型的查询

优化COUNT()查询

优化关联查询

  • 确保ON或USING子句中的列上有索引。
  • 确保任何GROUP BY和ORDER BY 中的表达式只涉及到一个表中的列,这样MySQL才有可能使用索引来优化这个过程。
  • 当升级MySQL的时候需要注意:关联语法、运算符优先级等其他可能会发生变化的地方。因为以前是普通关联的地方可能会变成笛卡尔积,不同类型的关联可能会生成不同的结果等。

优化子查询

对于子查询的优化,尽可能使用关联查询代替。

优化GROUP BY 和 ORDER BY

最有效的优化办法是使用索引。

当无法使用索引时,可以使用临时表或者文件排序来做分组。

另外如果需要对关联查询做分组,并且是按照查找表中的某个列进行分组,那么通常采用查找表的标识列分组的效率会比其他列更高。

优化LIMIT 分页

在系统中需要进行分页操作的时候,我们通常会使用LIMIT 加上偏移量的办法实现,同时加上合适的ORDER BY子句。如果有对应的索引,通常效率会不错,否则,MySQL需要做大量的文件排序操作。

优化UNION查询

静态查询分析

使用用户自定义变量

那些场景不能使用用户自定义变量:

  • 使用自定义变量的查询,无法使用查询缓存;
  • 不能再使用常量或者标识符的地方使用自定义变量,例如表名、列名和LIMIT子句中。
  • 用户自定义变量的生命周期是在一个连接中有效,所以不能用它们来做连接间的通信。
  • 如果使用连接池或者持久化连接,自定义变量可能让看起来毫无关系的代码发生交互。
  • 在5.0之前的版本,是大小写敏感的,所以要注意代码在不同MySQL版本间的兼容性问题。
  • 不能显式地声明自定义变量的类型。确定未定义变量的具体类型的时机在不同MySQL版本中也可能不一样。如果你希望变量是整数类型,那么最好在初始化的时候就赋值为0,如果希望是浮点型则赋值为0.0,如果希望是字符串则赋值为’’,用户自定义变量的类型在赋值的时候会改变。MySQL的用户自定义变量是一个动态类型。
  • MySQL优化器在某项些场景下可能会将这些变量优化掉,这可能导致代码不按预想的方式运行。
  • 赋值的顺序和赋值的时间点并不总是固定的,这依赖于优化器的决定,实际情况可能很让人困惑,后面我们将看到这一点。
  • 赋值符号:=的优先级非常低,所以需要注意,赋值表达式应该使用明确的括号。
  • 使用未定义变量不会产生任何语法错误,如果没有意识到这一点,非常容易犯错。

用户自定义变量的用法:

  • 查询运行时计算总数和平均值。
  • 模拟GROUP BY语句中的函数FIRST()和LAST()。
  • 对大量数据做一些数据计算。
  • 计算一个大表的MD5散列值。
  • 编写一个样本处理函数,当样本中的数值超过某个边界值的时候将其变为0。
  • 模拟读/写游标。
  • 在SHOW语句的WHERE子句中加入变量值。
文章目录
  1. 为什么查询会慢?
  2. 慢查询:优化数据访问
    1. 是否向数据库请求了不需要的数据
    2. MySQL是否在扫描额外的记录
      1. 响应时间
      2. 扫描的行数和返回的列数
      3. 扫描的行数和访问类型
    3. 重构查询的方式
      1. 复杂查询拆分多个简单查询
      2. 切分查询
      3. 分解关联查询
    4. 查询执行的基础
    5. 优化特定类型的查询
      1. 优化COUNT()查询
      2. 优化关联查询
      3. 优化子查询
      4. 优化GROUP BY 和 ORDER BY
      5. 优化LIMIT 分页
      6. 优化UNION查询
      7. 静态查询分析
      8. 使用用户自定义变量