Redisson集群拓扑更新异常问题分析与修复

2025-05-09 18:49:13作者：邬祺芯Juliet

Redisson是一款高性能、基于Java的Redis客户端，专为现代应用程序设计。它充分利用Netty框架和异步编程模型，支持广泛的Redis版本及多种部署模式，从单机到云服务如AWS、Azure和GCP，乃至企业级解决方案，全面覆盖。Redisson不仅提供基本的键值存储功能，还扩展至高级特性和分布式Java对象，包括反应式编程支持、lua脚本、事务、多种数据结构与锁机制，以及丰富的集成选项如Spring、Quarkus和Hibernate。通过简洁的API，Redisson让开发人员能够轻松构建可伸缩、低延迟的应用，无论是在微服务架构中还是传统环境，都是提升效率和可靠性的得力工具。开始探索Redisson，解锁数据管理的新高度。

项目地址：https://gitcode.com/gh_mirrors/red/redisson

问题背景

在Redis集群环境中，当发生主从切换时，Redisson客户端(3.28.0及以上版本)可能会出现集群拓扑信息更新不及时的问题。具体表现为客户端持续将请求发送到错误的节点(原主节点或新从节点)，导致Redis返回MOVED错误，而客户端无法自动恢复，必须重启应用才能解决。

问题现象

用户报告在Redis集群频繁主从切换时，Redisson客户端会出现以下异常：

org.redisson.client.RedisTimeoutException: Unable to acquire connection! 
NodeSource [slot=7685, addr=redis://10.225.91.213:6379, redisClient=null, redirect=MOVED, entry=null]

异常表明客户端尝试连接到一个已经不再是主节点的Redis实例，且无法自动更新集群拓扑信息。

问题复现

通过测试可以稳定复现该问题：

将Redis从节点提升为主节点
将原主节点重新提升回主节点
此时Redisson客户端拓扑信息不会更新

使用Arthas工具检查发现，Redisson内部的MasterSlaveEntry对象中包含了错误的主节点信息，与实际集群拓扑不一致。

问题分析

通过版本对比和日志分析，可以确定：

该问题从Redisson 3.28.0版本开始出现
在3.27.2及以下版本中，主从切换后客户端能正确更新拓扑
问题核心在于客户端在第二次主从切换(即恢复原主节点)时，未能正确接收和处理集群拓扑变更事件

日志分析显示：

第一次主从切换时，Redisson能正确记录变更
第二次切换回原主节点时，没有相关日志输出
客户端仍尝试向已降级为从节点的实例发送写请求

影响范围

该问题对系统的影响包括：

导致大量请求被错误路由，产生MOVED响应
在Tomcat Session Manager等场景下可能导致服务不可用
显著增加Redis集群的操作压力(OPs可能增长5倍)

解决方案

Redisson开发团队已在3.33.0版本中修复了该问题。对于无法立即升级的用户，临时解决方案包括：

降级到3.27.2版本
在应用层实现监控和自动恢复机制
优化Redis集群稳定性，减少不必要的主从切换

最佳实践建议

对于生产环境，建议使用稳定的Redisson版本(3.33.0及以上)
实施Redis集群健康监控，避免频繁主从切换
在客户端配置合理的重试机制和超时设置
定期检查客户端与集群拓扑的一致性

该问题的修复显著提升了Redisson在Redis集群不稳定场景下的健壮性，确保了分布式系统的高可用性。

redisson

项目地址：https://gitcode.com/gh_mirrors/red/redisson

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力