Patroni集群中replicatefrom标签导致的无限递归问题分析

2025-05-30 03:08:05作者：裴麒琰

问题背景

在PostgreSQL高可用解决方案Patroni中，管理员报告了一个关于复制拓扑显示异常的问题。当执行switchover操作后，集群拓扑显示出现异常：主节点显示它正在从备节点复制(replicatefrom)，而备节点却显示没有进行复制(实际上复制是正常工作的)。

问题现象

执行switchover后，patronictl topology命令显示如下异常拓扑结构：

+ Cluster: mycluster (7368804937979002203) -------+----+-----------+--------------------------+
| Member    | Host    | Role    | State     | TL | Lag in MB | Tags                     |
+-----------+---------+---------+-----------+----+-----------+--------------------------+
| server2   | server2 | Leader  | running   |  2 |           | {replicatefrom: server1} |
| + server1 | server1 | Replica | streaming |  2 |         0 | {replicatefrom: false}   |
+-----------+---------+---------+-----------+----+-----------+--------------------------+

而期望的正确拓扑应该是：

+ Cluster: mycluster (7368804937979002203) -------+----+-----------+--------------------------+
| Member    | Host    | Role    | State     | TL | Lag in MB | Tags                     |
+-----------+---------+---------+-----------+----+-----------+--------------------------+
| server2   | server2 | Leader  | running   |  2 |           | {replicatefrom: false} |
| + server1 | server1 | Replica | streaming |  2 |         0 | {replicatefrom: server2}   |
+-----------+---------+---------+-----------+----+-----------+--------------------------+

问题根源分析

深入分析Patroni源码后发现，这个问题源于get_slot_name_on_primary方法中对replicatefrom标签的递归处理存在缺陷。当两个节点相互引用对方的replicatefrom标签时，会导致无限递归调用，最终触发Python的递归深度限制。

具体来说，处理流程如下：

当检查主节点的复制槽时，Patroni会查看其replicatefrom标签
如果该标签指向另一个节点，则会递归检查该节点的replicatefrom标签
当两个节点相互引用时，就形成了无限递归

问题影响

这个bug不仅导致拓扑显示异常，还会引发更严重的问题：

后续的switchover操作会失败
Patroni日志中会出现递归深度超限的错误
集群管理功能可能受到影响

解决方案

针对这个问题，可以考虑以下几种解决方案：

临时解决方案

在出现递归错误时捕获异常并返回默认值：

try:
    replicatefrom = self.get_member(tags.replicatefrom, False) if tags.replicatefrom else None
    return self.get_slot_name_on_primary(replicatefrom.name, replicatefrom) \
        if isinstance(replicatefrom, Member) else slot_name_from_member_name(name)
except RecursionError:
    return slot_name_from_member_name(name)