MySQL的count(1)特别慢的解决方案

在mysql里面，统计表的行数，大部分情况下，大家都采用select count（1） from table_name where pkid>0 and xxxxx and xxxxxx;这样的方式，去数据库表查下返回结果。这种情况下，在表小的时候，很快返回，当表越来越大的时候，就会特别慢。特别是查询表总记录数的情况下。select count(1) from table_name wher

林震南

18637人浏览 · 2021-05-01 14:10:28

林震南 · 2021-05-01 14:10:28 发布

在mysql里面，统计表的行数，大部分情况下，大家都采用select count（1） from table_name where pkid>0 and xxxxx and xxxxxx;这样的方式，去数据库表查下返回结果。这种情况下，在表小的时候，很快返回，当表越来越大的时候，就会特别慢。特别是查询表总记录数的情况下。select count(1) from table_name where plid>0;

我们先来看下count的方案，mysql一般有2种存储引擎：

1、MyISAM引擎把一个表的总行数存在了磁盘上，因此执行count(*)的时候会直接返回这个数，效率很高（没有where查询条件）

2、InnoDB引擎并没有直接将总数存在磁盘上，在执行count(*)函数的时候需要一行一行的将数据读出来，然后累计总数。

目前绝大部分的应用都采用的是InnoDB存储引擎，那是否有其它解决方案来提升count的效率呢？还是有的，我们分几种情况来分析下。

1、比较粗放的方法：

a）show table status;里面能拿到，但是官方说有40%的概率是有误差，毕竟状态统计不是那么实时的。

b）直接去查系统表，information_schem.tables里面有一个字段table_rows，里面记录表的总行数，但是这个也不是最新的统计，应该是有延迟的。

2、需要实时统计的

那就只能count去查询了，count()是一个聚合函数，对于返回的结果集，一行行地判断，如果count函数的参数不是NULL，累计值就加1，否则不加。最后返回累计值。w我们看下不同count的写法之间的差异：

a）：count(*)，这个一般现在很少用了，这种一般是直接累计行数累加得到总行数。

b）：count(id)：InnoDB引擎会遍历整张表，把每一行的id值都取出来，返回给server层。server层拿到id后，判断是不可能为空的，就按行累加。

c）：count(1)：InnoDB引擎遍历整张表，但不取值。server层对于返回的每一行，放一个数字1进去，判断是不可能为空的，按行累加。

d）：count(字段)：count(*)：不会把全部字段取出来，而是专门做了优化，不取值。count(*)肯定不是null，按行累加。如果这个“字段”是定义为not null的话，一行行地从记录里面读出这个字段，判断不能为null，按行累加；如果这个字段定义允许为null，那么执行的时候，判断到有可能是null，还要把值取出来再判断一下，不是null才累加。

看到了这几种的差异，我们判断得出大概的效率：count(字段)<count(主键id)<count(1)≈count(*)。

3、采用缓存系统，存量+增量

比如一天之前的行数，存储在redis里面，近一的行数，直接去查数据库，两者累加，就拿到了表的总行数。

一门面向 Data 和 AI 的低代码、云原生的开源编程语言

无需安装部署，在线快速体验 Byzer

更多推荐

编译时权限控制

前言权限控制，对于 MLSQL 而言的重要程度可以说是生命线。 MLSQL 需要面对各式各样的资源访问，比如 MySQL, Oracle,HDFS，Hive，Kafka，Sorl，ElasticSearch，Redis，API，Web等等，不同用户对这些数据源（以及表，列）的权限是不一样的。传统模式是，每个用户都需要有个 proxy user，然后到每个数据源里面给这个 proxy user

Byzer 支持 JDBC 聚合下推

聚合下推PR链接聚合下推我们知道 Byzer 支持多数据源和联邦查询，可以方便分析师在一个平台上快速的分析来自多种数据源的数据，从而进行灵活的探索式分析。使用场景和优势当前 Byzer 中加载数据的方式会拉取明细数据到 spark 中进行聚合计算，对于小数据量或者在分布式文件系统上的数据源来说是常规操作。但是对于 JDBC 数据源或者有分析能力的 OLAP 系统来说拉取明细数据可能就不是最

Byzer 术语表

Byzer-lang Byzer ，又称为 Byzer-lang，一门面向 Data 和 AI 的低代码、云原生的开源编程语言。 Byzer 是一门结合了声明式编程和命令式编程的混合编程语言，其低代码且类 SQL 的编程逻辑配合内置算法及插件的加持，能帮助数据工作者们高效打通数据链路，完成数据的清洗转换，并快速地进行机器学习相关的训练及预测。 Byzer 希望能够提供一套语言、一个引擎，就能覆盖整

所有评论(0)

查看更多评论

林震南

已为社区贡献150条内容