简单说说THP——记一次数据库服务器阻塞的问题解决

上一篇 / 下一篇  2016-04-26 15:58:51 / 个人分类:性能诊断调优

背景:
i~ h0Ld B0公司某个大型业务系统反馈最近数据库服务器总是宕机(此处描述不准确,后面解释),最后,客户、运维人员都觉得实在是忍无可忍了,项目经理打电话找到我问是否能帮忙诊断一下,刚好第二天要去现场沟通另外一个系统的测试需求,于是答应第二天顺便看一下。
8hy p S/Q X9N-~,j|y0------------------------------------51Testing软件测试网9Q*C)G7k R&e

a)|!v}OW0排查解决过程:
cg fg3v0第二天来到现场,正在沟通需求的时候,运维人员突然说,操作又开始卡了,51Testing软件测试网Hj;q-S3]8^e#hO
于是连上服务器,先用top大概看了一下资源的使用情况,此时CPU已经基本上满载了,而且可以发现用户态的CPU占比并不高,大部分时间竟然都是内核态的CPU占用,
z3P:};{ e MD^0
7S1Z|e*o#f0当时我开始怀疑可能是数据库服务对底层的某个调用出了问题,有死循环?
7}@.?3r!eZ2s7ff0于是立刻用perf top大概看了一下,51Testing软件测试网 Ogd@W0O
51Testing软件测试网Y@6Arf pQ-I
发现比重较大的是自旋锁还有一个compaction_alloc,内存碎片整理?51Testing软件测试网9f(gQg5u TS'} `m
从该信息判断,可能是内存的什么操作导致了很多线程在临界区各种等待。
&N KMo mM n,l Pz0为了进一步弄明白具体是什么操作导致,于是对内核参数的调用栈进行取样
*oVo2bw\J&B&G p0perf record -a -g -F 1000 sleep 60
TFD6@|J4z*c5P0“-g'的意思是按照调用关系存储数据;“-F 1000 sleep 60”表示按照每秒取1000个样本的频率取一分钟。
(`zO#m&k g0取完样后,使用perf report -g打开取样的数据,可以看到如下的调用栈:
V9U:yH IaJ051Testing软件测试网1vt1~rq0G2l)q
很明显这个自旋锁是由内存页的碎片整理导致,而进行碎片整理是由hugepage导致的,
?$WRkY~n7U4BP p0看到这里的时候,我突然想起来linux的一个THP特性,貌似是kelnel 2.6.38版本后开始加进来的,
bZ3Xb-F Gx3?0这个特性实际上就是会把这种巨页的使用对用户透明,用户不需要再进行巨页的配置,51Testing软件测试网T^$S-vH RSA~
内存会自动将连续的512个普通页作为一个巨页处理,
3A loiRo9EO gF.y0正如我们在前面的调用栈看到的,这种特性就需要对内存碎片进行整理,
_7D1[![2g#g,Y8w0所以我们看到的现象是内存碎片页移动导致的自旋锁,而根本原因是THP特性所导致的。51Testing软件测试网N8@1x[5n
知道了问题原因,解决也就容易了,只要把THP关闭就可以了。
4qg @2B(G8fz5]N0关闭的方法如下:51Testing软件测试网2bER7Q2E#xK/rO#L0E
vi /etc/rc.local
%jy m&bn8WJTA,O$g,^0在文件末尾添加如下指令:51Testing软件测试网q,ze&mN7HL
if test -f /sys/kernel/mm/redhat_transparent_hugepage/enabled; then
x)Es6|X:h0   echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled
]4fP6m(o.A;@,X0fi
PK+WCN&L*L1@$Rk0if test -f /sys/kernel/mm/redhat_transparent_hugepage/defrag; then51Testing软件测试网E!I#s:p#ulR"^#`
   echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag51Testing软件测试网J jSD5T}`dUv
fi
n.]V-}h*e"Ad0
z#l:sym7jj'K:I0保存后,重启即可。
&hQ-j'e;Y#j Ix0PS:此处不同版本的linux路径会有些区别,自己看好了
m%Yk O0~2w:K,X-O0~051Testing软件测试网Ap qg)T d$d
vi /sys/kernel/mm/redhat_transparent_hugepage/enabled
o\}nQO Ek+b#A3?0如果显示如下:
U,i7N?t(e(T051Testing软件测试网a(k2bl'?.D&YXk&S L
即为关闭THP生效。51Testing软件测试网,bu-g4J$F
51Testing软件测试网!k S b.f IAc
其实这样做完还不算完全解决问题,就如我们前面说的,
]b^Cc"zP7|e0THP的引入是为了减少维护人员配置巨页的工作,我们把THP特性关掉了,
3V,JSd C5^.?4wd.f0最好的实践是我们应该再根据我们数据库服务需要的共享内存大小进行hugepage的配置。51Testing软件测试网7F,L&^sj1e/l
毕竟在现在动辄几十G,甚至上百G的内存,如果在按照4K普通页大小去维护TLB,也是一个很大的开销。51Testing软件测试网6f7I`P!M
这里hugepage的配置,因为数据库不同,甚至数据库版本不同,配置过程也不大相同,最重要的一点,我发现这篇日志写的有点太长了。51Testing软件测试网 D y k0YR*Y l,wt
因此,这里就不展开赘述了,有时间可以开帖讲一讲。51Testing软件测试网8jn(v:h oG!\u
-----------------------------------------------51Testing软件测试网g%`1G;]qp5\7ts

R/p[ KPW(W0解决效果:51Testing软件测试网F$g wx H-}O
在进行如上两步处理后,连续观察了几天,果然再没有所谓的“宕机”事件了。
;Y a\(u+hq0这里“宕机”用了引号,对应最前面反馈问题时项目经理所说的服务器宕机描述,其实这个描述本身就是错误的,明天我准备再针对这个详细解释一下:如何正确的提问。

TAG: 数据库 hugepage Top top 宕机 调优

 

评分:0

我来说两句

日历

« 2024-03-30  
     12
3456789
10111213141516
17181920212223
24252627282930
31      

数据统计

  • 访问量: 30949
  • 日志数: 27
  • 建立时间: 2016-04-25
  • 更新时间: 2016-05-10

RSS订阅

Open Toolbar