线程问题怎么排查

摘要:
如果在线应用程序遇到活锁问题,恭喜您中了彩票。这种问题很难排除。线程问题疑难解答在多线程程序中,如果问题是数据异常问题,则很难进行疑难解答。它需要一点代码检查。此状态表示线程具有所有运行条件,正在准备运行队列中操作系统的调度,或正在运行。此时,线程状态大致如下:java。语言线程。状态:TIMED_WAITINGjava.lang.Thread.State:等待线程问题疑难解答工具cpu太高,无法在代码级别分析原因并解决问题:1。根据top命令,发现PID为2633的Java进程占用了高达300%的CPU,并且存在故障。

线程状态的定义

可见在 JDK 中定义的线程状态总共六种,各状态在特定条件下可以转换,其组成了一个线程的生命周期,为了方便理解,对其状态和转换整理成了列表和状态图的形式。

状态描述
NEW线程新建但是还没有 start 的时候,即 new Thread()
RUNNABLE调用了 Thread 的 start() 方法,此时线程可运行,但是也有可能需要等待其他操作系统资源,比如处理器资源,当获取到处理器资源之后,则进入 RUNNING 状态
BLOCKED当进入同步代码块时,如果需要等待获取锁,那么就会被阻塞进入该状态
WAITING由于执行了 Object.wait()、`Thread.join()、LockSupport.park() 进入了等待状态
TIMED_WAITING由于执行了 Thread.sleep(long)、Object.wait(long)、Thread.join(long)、LockSupport.parkNanos、LockSupport.parkUntil,进入了有限时长的等待状态
TERMINATED线程 run 方法执行结束

线程问题怎么排查第1张

线程运行的几个概念

  • 临界区

临界区用来表示一种公共资源或者说是共享数据,可以被多个线程使用。但是每一次,只能有一个线程使用它,一旦临界区资源被占用,其他线程要想使用这个资源,就必须等待。

  • 死锁

死锁是进程死锁的简称,是指多个进程循环等待他方占有的资源而无限的僵持下去的局面。

  • 活锁

假设有两个线程1、2,它们都需要资源 A/B,假设1号线程占有了 A 资源,2号线程占有了 B 资源;由于两个线程都需要同时拥有这两个资源才可以工作,为了避免死锁,1号线程释放了 A 资源占有锁,2号线程释放了 B 资源占有锁;此时 AB 空闲,两个线程又同时抢锁,再次出现上述情况,此时发生了活锁。

简单类比,电梯遇到人,一个进的一个出的,对面占路,两个人同时往一个方向让路,来回重复,还是堵着路。

如果线上应用遇到了活锁问题,恭喜你中奖了,这类问题比较难排查。

  • 饥饿

饥饿是指某一个或者多个线程因为种种原因无法获得所需要的资源,导致一直无法执行。

线程问题排查

在多线程程序中,如果出现的问题是数据异常类的问题,比较难排查需要一点点的检查代码。如果说是资源类的问题排查起来相对来说比较简单。常用的命令就是 top/jps 以及 ps 定位出是哪个进程。然后通过 jstack 命令打出这个进程的全部线程堆栈,接下来就是分析打印的堆栈信息了。在堆栈信息里面打印的线程状态有:

 死锁,Deadlock(重点关注)
 执行中,Runnable  
 等待资源,Waiting on condition(重点关注)
 等待获取监视器,Waiting on monitor entry(重点关注)
 暂停,Suspended
 对象等待中,Object.wait() 或 TIMED_WAITING
 阻塞,Blocked(重点关注) 
 停止,Parked

可能存在的情况有:

  • 线程状态为“Runnable”。

该状态表示线程具备所有运行条件,在运行队列中准备操作系统的调度,或者正在运行。

  • 线程状态为“waiting for monitor entry”。

意味着它在等待进入一个临界区,所以它在“Entry Set”队列中等待。

此时线程状态一般都是 Blocked:java.lang.Thread.State: BLOCKED (on object monitor)。

  • 线程状态为“waiting on condition”。

说明它在等待另一个条件的发生,来把自己唤醒,或者干脆它是调用了 sleep(N)。此时线程状态大致为以下几种:

(1) java.lang.Thread.State: WAITING (parking):一直等那个条件发生;

(2) java.lang.Thread.State: TIMED_WAITING (parking或sleeping):定时的,那个条件不到来,也将定时唤醒自己。

  • 如果大量线程在“waiting for monitor entry”。

可能是一个全局锁阻塞住了大量线程。

如果短时间内打印的 thread dump 文件反映,随着时间流逝,waiting for monitor entry 的线程越来越多,没有减少的趋势,可能意味着某些线程在临界区里呆的时间太长了,以至于越来越多新线程迟迟无法进入临界区。

  • 如果大量线程在“waiting on condition”:

可能是它们又跑去获取第三方资源,尤其是第三方网络资源,迟迟获取不到 Response,导致大量线程进入等待状态。

所以如果你发现有大量的线程都处在 Wait on condition,从线程堆栈看,正等待网络读写,这可能是一个网络瓶颈的征兆,因为网络阻塞导致线程无法执行。

  • 线程状态为“in Object.wait()”:

说明它获得了监视器之后,又调用了 java.lang.Object.wait() 方法。

每个 Monitor在某个时刻,只能被一个线程拥有,该线程就是 “Active Thread”,而其它线程都是 “Waiting Thread”,分别在两个队列 “ Entry Set”和 “Wait Set”里面等候。在 “Entry Set”中等待的线程状态是 “Waiting for monitor entry”,而在 “Wait Set”中等待的线程状态是 “in Object.wait()”。

当线程获得了 Monitor,如果发现线程继续运行的条件没有满足,它则调用对象(一般就是被 synchronized 的对象)的 wait() 方法,放弃了 Monitor,进入“Wait Set”队列。

此时线程状态大致为以下几种:

java.lang.Thread.State: TIMED_WAITING (on object monitor);

java.lang.Thread.State: WAITING (on object monitor);

线程问题排查工具

cpu过高分析原因,到代码级别

解决过程:
1,根据top命令,发现PID为2633的Java进程占用CPU高达300%,出现故障。
2,找到该进程后,如何定位具体线程或代码呢,首先显示线程列表,并按照CPU占用高的线程排序:

[root@localhost logs]# ps -mp 2633 -o THREAD,tid,time | sort -rn

显示结果如下:

USER     %CPU PRI SCNT WCHAN  USER SYSTEM   TID     TIME
root     10.5  19    - -         -      -  3626 00:12:48
root     10.1  19    - -         -      -  3593 00:12:16

找到了耗时最高的线程3626,占用CPU时间有12分钟了!
将需要的线程ID转换为16进制格式:

[root@localhost logs]# printf "%x
" 3626
e18

最后打印线程的堆栈信息:

[root@localhost logs]# jstack 2633 |grep e18 -A 30

脚本 show-busy-java-threads ,自动化上面的排查过程,

一键输出 javaCPU消耗高的线程:

https://github.com/oldratlee/useful-scripts/blob/master/docs/java.md#-show-busy-java-threads

top命令查看线程cpu

//间隔1秒(-d 1),输出一次(-n 1)
top -Hp pid -d 1 -n 1

//打印System_Server进程各个线程的Java调用栈,根据线程状态及调用栈来更进一步定位问题点
kill -3 pid 

扫描二维码,关注公众号“猿必过”

file

回复 “面试题” 自行领取吧。

微信群交流讨论,请添加微信号:zyhui98,备注:面试题加群

本文由猿必过 YBG 发布

禁止未经授权转载,违者依法追究相关法律责任

如需授权可联系:zhuyunhui@yuanbiguo.com

免责声明:文章转载自《线程问题怎么排查》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇phpexcel导出excel等比例缩放图片拒绝了对对象 'sp_sdidebug'(数据库 'master',所有者 'dbo')的 EXECUTE 权限下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Java虚拟机14:Java对象大小、对象内存布局及锁状态变化

一个对象占多少字节? 关于对象的大小,对于C/C++来说,都是有sizeof函数可以直接获取的,但是Java似乎没有这样的方法。不过还好,在JDK1.5之后引入了Instrumentation类,这个类提供了计算对象内存占用量的方法。至于具体Instrumentation类怎么用就不说了,可以参看这篇文章如何精确地测量java对象的大小。 不过有一点不同的...

如何解决线程安全问题

转自:https://www.cnblogs.com/dolphin0520/p/3923737.html 虽然多线程编程极大地提高了效率,但是也会带来一定的隐患。比如说两个线程同时往一个数据库表中插入不重复的数据,就可能会导致数据库中插入了相同的数据。今天我们就来一起讨论下线程安全问题,以及Java中提供了什么机制来解决线程安全问题。   以下是本文的...

多进程浏览器、多线程页面渲染与js的单线程

线程与进程 说到单线程,就得从操作系统进程开始说起。在早期的操作系统中并没有线程的概念,进程是能拥有资源和独立运行的最小单位,也是程序执行的最小单位。任务调度采用的是时间片轮转的抢占式调度方式,而进程是任务调度的最小单位,每个进程有各自独立的一块内存,使得各个进程之间内存地址相互隔离。后来,随着计算机的发展,对CPU的要求越来越高,进程之间的切换开销较大,...

流式处理框架storm浅析(上篇)

本文来自网易云社区 作者:汪建伟 前言 前一段时间参与哨兵流式监控功能设计,调研了两个可以做流式计算的框架:storm和spark streaming,我负责storm的调研工作。断断续续花了一周的时间看了官网上的doc和网络上的一些资料。我把所学到的总结成一个文档,发出来给对storm感兴趣的同事做入门引导。 storm背景 随着互联网的更进一步发...

JUC 并发编程--04 常用的辅助类CountDownLatch , CyclicBarrier , Semaphore , 读写锁 , 阻塞队列,CompletableFuture(异步回调)

CountDownLatch 相当于一个减法计数器, 构造方法指定一个数字,比如6, 一个线程执行一次,这个数字减1, 当变为0 的时候, await()方法,才开始往下执行,, 看这个例子 CyclicBarrier 的用法, 字面意思:循环栅栏, 这是构造方法, 第一个参数parties 是线程数量, 第二个参数是barrierAction:...

异步线程池的实现(一)-------具体实现方法

本篇是这个内容的第一篇,主要是写:遇到的问题,和自己摸索实现的方法。后面还会有一篇是总结性地写线程池的相关内容(偏理论的)。 一、背景介绍     朋友的项目开发到一定程度之后,又遇到了一些问题:在某些流程中的一些节点,由于是串联执行的。上一步要等下一步执行完毕;或者提交数据之后要等待后台其他系统处理完成之后,才能返回结果。这样就会导致,请求发起方不得不一...