早啊,吃早饭了吗?

编程开发

Alibaba Druid 数据库连接池 takeLast() AQS 死锁导致程序无响应

2024年01月30日 22:07:55 · 本文共 895 字阅读时间约 3分钟 · 4,113 次浏览
Alibaba Druid 数据库连接池 takeLast() AQS 死锁导致程序无响应

项目现场同事向我反应,我写的应用不定期会卡死没有任何响应,也没有任何报错日志输出,请求接口就是等待响应,将堆栈信息导出给我以后,我一看大部分线程在 WAITING 等待,是 com.alibaba.druid.pool.DruidDataSource.takeLast() 在等待,我先写解决方案,再研究原因。

解决方案

Alibaba Druid 配置文件中配置 maxWait 参数。

没了,嗯,对就这么简单,如果你只想解决问题,到这里就可以了,去试试吧;如果你和我一样想看看原因,我们继续探索。

探索过程

我让项目现场的同事将堆栈导出给我,我看到线程状态大部分在 WAITING 等待,见如下图:

堆栈中线程大部分在等待

点击查看堆栈信息,发现是执行到 com.alibaba.druid.pool.DruidDataSource.takeLast() 里面在等待:

Druid takeLast 在AQS等待

我使用的 Druid 版本是 1.2.17,在源代码中搜索这个方法,在:https://github.com/alibaba/druid/blob/1.2.17/core/src/main/java/com/alibaba/druid/pool/DruidDataSource.java#L2289

那谁调用了它呢,就一个地方,我们过去看看:https://github.com/alibaba/druid/blob/1.2.17/core/src/main/java/com/alibaba/druid/pool/DruidDataSource.java#L1758-L1762

是判断 maxWait > 0 时执行 pollLast,否则执行这个 takeLast,然后就死锁了。

而这个 maxWait 的默认值是 -1,可见:https://github.com/alibaba/druid/blob/1.2.17/core/src/main/java/com/alibaba/druid/pool/DruidAbstractDataSource.java#L69

我看了下确实我没有配置这个,在配置文件中增加对 maxWait 的配置以后,就不会再出现程序无响应的情况了。

maxWait 是什么

maxWait:从连接池中获取连接的最大等待时间,单位ms,默认-1,即会一直等待下去

如果是默认的 -1,意思就是连接池里没有连接了,也会一直等待下去,就这样一直等待下去。。。

在最新的版本中,似乎已经修改了,我看在2024年1月23日有个提交:https://github.com/alibaba/druid/commit/6ec6c006993824ad9a068e3444d770969c4cc410,代码已经变了,大佬们可以继续研究下。

商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.renfei.net/posts/1626402130325676118
评论与留言

以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。

微信搜一搜:任霏博客