大数据分页的一种优化方法

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> 大数据
>> 查看资讯

发表于：2017-3-23 10:43

作者：玄惭来源：51Testing软件测试网采编

软件开发

大数据

　　摘要： 通常应用需要对表中的数据进行翻页，如果数据量很大，往往会带来性能上的问题： root@sns 07:16:25>select count(*) from reply_0004 where thread_id = 5616385 and deleted = 0; +———-+ | count(*) | +———-+ | 1236795 | +———-+ 1 row in set (0.

　　通常应用需要对表中的数据进行翻页，如果数据量很大，往往会带来性能上的问题：

root@sns 07:16:25>select count(*) from reply_0004 where thread_id = 5616385 and deleted = 0;

+———-+

| count(*) |

+———-+

| 1236795 |

+———-+

1 row in set (0.44 sec)

root@sns 07:16:30>select id

from reply_0004 where thread_id = 5616385 and deleted = 0

order by id asc limit 1236785, 10 ;

+———–+

| id |

+———–+

| 162436798 |

| 162438180 |

| 162440102 |

| 162442044 |

| 162479222 |

| 162479598 |

| 162514705 |

| 162832588 |

| 162863394 |

| 162899685 |

+———–+

10 rows in set (1.32 sec)

　　索引：threa_id+deleted+id（gmt_Create）

　　10 rows in set (1.32 sec)

　　这两条sql是为查询最后一页的翻页sql查询用的。由于一次翻页往往只需要查询较小的数据，如10条，但需要向后扫描大量的数据，也就是越往后的翻页查询，扫描的数据量会越多，查询的速度也就越来越慢。

　　由于查询的数据量大小是固定的，如果查询速度不受翻页的页数影响，或者影响最低，那么这样是最佳的效果了（查询最后最几页的速度和开始几页的速度一致）。

　　在翻页的时候，往往需要对其中的某个字段做排序（这个字段在索引中），升序排序。那么可不可以利用索引的有序性来解决上面遇到的问题喃，答案是肯定的。比如有10000条数据需要做分页，那么前5000条做asc排序，后5000条desc排序，在limit startnum，pagesize参数中作出相应的调整。

　　但是这无疑给应用程序带来复杂，这条sql是用于论坛回复帖子的sql，往往用户在看帖子的时候，一般都是查看前几页和最后几页，那么在翻页的时候最后几页的翻页查询采用desc的方式来实现翻页，这样就可以较好的提高性能：

root@snsgroup 07:16:49>select * from (select id

-> from group_thread_reply_0004 where thread_id = 5616385 and deleted = 0

-> order by id desc limit 0, 10)t order by t.id asc;

+———–+

| id |

+———–+

| 162436798 |

| 162438180 |

| 162440102 |

| 162442044 |

| 162479222 |

| 162479598 |

| 162514705 |

| 162832588 |

| 162863394 |

| 162899685 |

+———–+

10 rows in set (0.87 sec)

　　可以看到性能提升了50%以上。

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选