Kubeblocks中PostgreSQL WAL-G恢复失败问题分析与解决方案

2025-06-30 01:03:17作者：乔或婵

KubeBlocks is a Kubernetes Operator designed to manage a variety of databases and streaming systems, including MySQL, PostgreSQL, MongoDB, Redis, RabbitMQ, RocketMQ, and more, within Kubernetes environments.

项目地址：https://gitcode.com/gh_mirrors/ku/kubeblocks

问题背景

在Kubeblocks项目中，用户在使用PostgreSQL数据库时遇到了WAL-G恢复失败的问题。具体表现为在恢复过程中出现"No such file or directory: '/home/postgres/pgdata/pgroot/data/recovery.conf'"错误，导致数据库集群无法正常启动。

问题现象

从日志中可以观察到以下关键错误信息：

恢复过程中出现文件缺失错误：

FileNotFoundError: [Errno 2] No such file or directory: '/home/postgres/pgdata/pgroot/data/recovery.conf'

数据库启动失败，提示需要恢复信号文件：

could not locate required checkpoint record
If you are restoring from a backup, touch "/home/postgres/pgdata/pgroot/data/recovery.signal" and add required recovery options.

备份恢复流程未能正确完成，导致数据目录结构异常：

/home/postgres/pgdata/pgroot/data.failed  # 恢复失败的数据目录
/home/postgres/pgdata/pgroot/data.old     # 空目录

技术分析

1. PostgreSQL恢复机制

PostgreSQL的物理备份恢复依赖于几个关键文件：

backup_label：标识这是一个从备份恢复的实例
recovery.conf(旧版本)或recovery.signal(新版本)：指示数据库进入恢复模式
WAL日志文件：用于前滚恢复

在PostgreSQL 12及以上版本中，recovery.conf已被弃用，改为使用recovery.signal文件结合postgresql.conf中的恢复参数。

2. WAL-G恢复流程

WAL-G是PostgreSQL的一个流行的备份恢复工具，其恢复流程大致如下：

下载基础备份文件
准备恢复环境
配置恢复参数
启动PostgreSQL进入恢复模式
应用WAL日志完成前滚

3. 问题根源

通过分析，问题的根本原因在于：

备份源选择不当：从备节点进行备份可能导致备份状态不一致
恢复文件配置不完整：缺少必要的恢复信号文件
目录结构处理不当：恢复过程中未能正确处理数据目录的迁移

解决方案

1. 确保从主节点备份

关键点：必须从PostgreSQL集群的主节点进行备份，从备节点备份可能导致备份状态不一致，进而影响恢复过程。

实施方法：

在Kubeblocks配置中明确指定备份源为主节点
添加备份前的健康检查，确保备份源是主节点

2. 完善恢复文件配置

对于PostgreSQL 12及以上版本：

创建recovery.signal文件
在postgresql.conf中配置恢复参数：

restore_command = 'envdir /home/postgres/pgdata/wal-g/restore-env /home/postgres/pgdata/wal-g/wal-g wal-fetch %f %p'
recovery_target = 'immediate'
recovery_target_action = 'promote'

3. 修复目录处理逻辑

在恢复脚本中完善目录处理：

确保目标目录存在
正确处理旧数据目录的清理
完善错误处理和回滚机制

示例修复代码：

# 确保目录存在
mkdir -p /home/postgres/pgdata/pgroot/data

# 处理旧数据
if [ -d "/home/postgres/pgdata/pgroot/data.old" ]; then
    mv /home/postgres/pgdata/pgroot/data.old/* /home/postgres/pgdata/pgroot/data/ || true
fi

# 创建恢复信号文件
touch /home/postgres/pgdata/pgroot/data/recovery.signal