admin管理员组

文章数量:1530085

如何对CPU过载进行排查?

1、怎么找出有问题的进程
2、掌握简单的GC分析技巧
3、掌握多线程分析技巧
4、多线程的使用注意的问题

案例现象

CUP使用率持续在80%左右
持续在3~8之间

1、业务量,高峰期6000/分钟发送量,平均2000/分钟发送量
2、服务器状况,两个节点接收数据,单节点消费数据
3、每个消息发送处理时间平均为10秒
4、单线程模式下节点最大消费能力每秒100条

分析

1、数据量并不大
2、服务器物力资源够用
3、单节点有足够的处理能力

分析排查-CPU的负载

什么事load数?
单位时间内正在运行和准备好运行的进程的总数,比如现在的系统有2个正在运行的进程,3个可运行进程,那么系统的load就是5

什么是平均负载?
即单位时间内的平均load数

如何界定是否高负载?
一般单核0.7,4核load averge <= 2.8
比较1分钟值,5分钟值,15分钟值,15分钟值持续大于2.8可认为系统肯定处于过于高的负载中

分析-初步定论

CPU 利用率不正常
Load非正常过载

CPU使用率过高常见原因

资源抢占、非空闲等待
中断操作
CPU指令调用频繁
其他原因

常见Load 偏高的可能原因

IO阻塞占用
频繁GC、FGC 的执行时间过长
线程被长时间占用、线程死锁等
其他原因

分析排查—GC排查方法

ps -ef | grep java 获取Java 进程ID
jstat -gcutil 329342 1000 每隔1秒输出一次GC情况

分析排查–指标

YGC----年轻代收集次数
YGCT----年轻代垃圾回收消耗时间
FGC----老年代回收次数
FGCT-----老年代回收消耗时间
GCT----垃圾回收消耗总时间

堆栈分析—方法

1、找出CPU占用最高的进程—top P
2、输出线程栈,先切换到tomcat用户下-----sudo -u tomcat -i


3、分析线程栈
4、分析线程堆栈组成


5、分析线程的状态
6、从堆栈中找出线程创建和调度的代码

总结

本文标签: CPU