Redisson中的Topic监听器泄漏问题分析与解决方案

2025-05-08 00:15:41作者：温玫谨Lighthearted

Redisson是一款高性能、基于Java的Redis客户端，专为现代应用程序设计。它充分利用Netty框架和异步编程模型，支持广泛的Redis版本及多种部署模式，从单机到云服务如AWS、Azure和GCP，乃至企业级解决方案，全面覆盖。Redisson不仅提供基本的键值存储功能，还扩展至高级特性和分布式Java对象，包括反应式编程支持、lua脚本、事务、多种数据结构与锁机制，以及丰富的集成选项如Spring、Quarkus和Hibernate。通过简洁的API，Redisson让开发人员能够轻松构建可伸缩、低延迟的应用，无论是在微服务架构中还是传统环境，都是提升效率和可靠性的得力工具。开始探索Redisson，解锁数据管理的新高度。

项目地址：https://gitcode.com/gh_mirrors/red/redisson

问题背景

在使用Redisson分布式框架时，开发团队遇到了一个关于Topic监听器的资源泄漏问题。具体表现为系统运行一段时间后，会出现订阅锁获取超时的错误，提示"Unable to acquire subscription lock after Nms"。即使增加了订阅连接池大小和超时时间，问题仍然会在几天后重现。

问题复现与分析

通过编写测试用例，可以稳定复现这个问题。测试模拟了在多线程环境下频繁添加和移除Topic监听器的场景：

使用Lambda表达式作为监听器时，JVM会优化创建相同的对象实例
由于Redisson内部使用System.identityHashCode作为监听器ID
当多个线程同时操作时，会出现监听器未被正确移除的情况

深入分析发现，Redisson内部虽然对原始监听器进行了包装，但仍然使用包装前对象的hashCode作为标识，这导致了当JVM重用相同Lambda实例时，监听器管理出现混乱。

并发条件下的性能问题

进一步测试发现，监听器中的耗时操作会严重影响订阅性能：

当监听器中包含阻塞操作（如Thread.sleep）时
订阅操作的延迟会出现明显波动
约1%的订阅操作会达到1秒以上的延迟
这与生产环境中观察到的订阅超时现象吻合

这表明在监听器中执行耗时操作会阻塞Redisson的内部线程，进而影响其他Topic的订阅操作。

解决方案

针对上述问题，Redisson团队提供了以下解决方案：

监听器标识改进：修复了监听器标识生成逻辑，确保即使使用相同Lambda实例也能正确管理
配置优化建议：
- 设置keepPubSubOrder为false，避免消息顺序处理引入延迟
- 增加线程池大小，确保有足够线程处理订阅请求
- 考虑使用虚拟线程执行器（Virtual Thread Per Task Executor）
最佳实践：
- 避免在监听器中执行耗时操作
- 如需处理耗时任务，应使用异步方式或工作线程池
- 监控订阅连接池使用情况，合理设置参数