Patroni集群切换失败问题分析与解决方案

2025-05-30 11:11:49作者：余洋婵Anita

问题现象

在使用Patroni管理PostgreSQL集群时，用户遇到了一个典型的切换问题：从server5到server6的切换操作成功执行，但反向切换却失败了。错误信息显示"Switchover failed, details: 503, Switchover failed"，日志中出现了"Member server5-prod10 exceeds maximum replication lag"的警告，但patronictl list命令却显示Lag为0MB。

深入分析

表面现象与实际情况的矛盾

Patroni的patronictl list命令显示的复制延迟(Lag)数据来源于DCS(分布式配置存储)中存储的成员键值，这意味着显示的数据可能有最多loop_wait秒(默认为10秒)的延迟。当用户执行切换操作时，实际的复制延迟可能已经超过了配置的1MB阈值(由maximum_lag_on_failover参数控制)。

配置不一致问题

通过分析日志，发现了一个关键问题：server5-prod10节点的REST API连接地址配置错误。日志显示Patroni尝试连接http://192.168.13.207:8008/patroni，但返回的信息中却包含了"name": "server6-prod11"，这表明server5实际上连接到了server6的Patroni API。

VIP配置的陷阱

进一步调查发现，这是由于历史遗留的VIP(虚拟IP)配置导致的。在之前的HA解决方案中，VIP指向数据库主节点。为了保持客户端配置不变，VIP和主节点的IP地址被交换了，但只修改了PostgreSQL的监听端口配置，而没有正确更新Patroni的REST API配置。

解决方案

修正REST API配置：确保每个节点的restapi.connect_address配置指向自身的正确IP地址，而不是VIP或其他节点的地址。
维护模式检查：在进行重要操作前，确认集群不处于维护模式(由日志可见集群当时处于维护模式)。
实时延迟监控：不要完全依赖patronictl list显示的延迟数据，可以通过直接查询PostgreSQL的pg_stat_replication视图获取实时复制状态。
配置审核：定期检查Patroni配置文件，确保所有节点的网络配置一致且正确。