Pushy项目中SSL握手超时导致连接池耗尽问题分析

2025-07-07 20:37:58作者：申梦珏Efrain

问题背景

在Pushy项目（一个Java实现的APNs推送客户端库）中，当客户端通过Nginx代理访问APNs服务器时，如果代理层出现DNS解析超时，可能会引发SSL握手超时异常(SslHandshakeTimeoutException)。这种情况会导致Pushy的连接池管理出现问题，最终可能使所有可用连接都被占用，无法建立新的有效连接。

问题现象

当出现以下情况时，问题会被触发：

客户端配置了连接超时时间（如10秒）
DNS解析服务不稳定，导致解析超时
SSL握手过程因此无法在超时时间内完成

此时系统会抛出SslHandshakeTimeoutException，但关键问题在于这个异常没有被正确处理，导致连接池中的pendingCreateChannelFutures没有被正确清理。

技术原理分析

Pushy底层使用Netty框架进行网络通信。在SSL握手过程中，Netty的SslHandler会处理握手超时情况。当超时发生时，SslHandler会：

创建一个SslHandshakeTimeoutException
通过SslHandshakeCompletionEvent将异常作为用户事件传递
调用releaseAndFailAll方法释放资源

然而在Pushy 0.14.1版本中，存在以下问题：

异常通过用户事件传递，而非直接抛出
ApnsClientHandler虽然监听了异常事件，但没有正确处理SslHandshakeCompletionEvent
导致channelReadyPromise没有被标记为失败
最终使得pendingCreateChannelFutures中的连接没有被正确移除

解决方案

该问题已在Pushy后续版本中修复。修复方案主要涉及：

在userEventTriggered方法中显式处理SslHandshakeCompletionEvent
当检测到握手失败时，主动调用channelReadyPromise.tryFailure()
确保连接池能够正确清理失败连接

对于仍在使用0.14.1版本的用户，可以采取以下临时解决方案：

public void userEventTriggered(final ChannelHandlerContext context, final Object event) throws Exception {
    if(event instanceof SslHandshakeCompletionEvent){
        Throwable cause = ((SslHandshakeCompletionEvent) event).cause();
        if(cause != null && cause instanceof SslHandshakeTimeoutException){
            getChannelReadyPromise(context.channel()).tryFailure(cause);
        }
    }
    // 原有其他处理逻辑
}