Redis-py集群模式下TimeoutError导致客户端不可恢复问题分析

2025-05-17 01:50:14作者：平淮齐Percy

问题背景

在使用Redis-py库(4.6.0版本)连接Redis集群(6.2.7版本)时，当集群中某个节点因网络问题变得不可达并返回TimeoutError时，客户端会进入不可恢复状态。这个问题在Python 3.8环境下运行于Ubuntu 22.10或Centos 7系统上均有出现。

问题现象

当使用ClusterPipeline执行批量操作时，如果集群中某个节点突然不可达，会出现以下两个严重问题：

客户端无法自动恢复：即使不可达节点被替换为新的IP地址，客户端仍会持续尝试连接原不可达节点
连接资源泄漏：TimeoutError在管道执行过程中抛出，导致相关连接未能正确释放，最终耗尽连接池资源

问题复现

通过以下典型场景可以复现该问题：

from redis.cluster import RedisCluster, ClusterNode
import random
import time

startup_node = ClusterNode('mystartupnode', '6379')
client = RedisCluster(startup_nodes=[startup_node])

while True:
    try:
        for _ in range(10):
            pipeline = client.pipeline()
            for key in [f"key-{random.randint(10000,11000)}" for _ in range(50)]:
                pipeline.get(key)
            pipeline.execute()
    except Exception as error:
        print("Failure ", error)
    time.sleep(1)

当上述代码运行时，如果人为断开集群中某个节点，使其返回TimeoutError，就会触发上述问题。

问题根源分析

深入分析Redis-py源码后发现，问题主要源于以下两个设计差异：

节点缓存更新机制不一致：RedisCluster._execute_command方法在遇到TimeoutError时会重新初始化节点缓存，而ClusterPipeline._send_cluster_command方法则不会
连接释放机制缺失：管道操作在遇到TimeoutError时未能正确释放已建立的连接资源

具体来说，在ClusterPipeline._send_cluster_command方法中，TimeoutError没有被视为需要刷新节点缓存的错误类型，导致客户端持续尝试连接已经不可达的节点。同时，管道操作中断时，相关连接资源未能被正确回收。