PostgreSQL集群中Patroni与pgBackRest恢复问题的解决方案
2025-06-30 16:29:19作者:房伟宁
问题背景
在PostgreSQL集群管理实践中,使用Patroni和pgBackRest进行数据库恢复时,经常会遇到Patroni无法自动启动恢复后的PostgreSQL实例的问题。这种情况通常发生在从其他pgBackRest主机恢复整个集群后,虽然能够通过手动命令启动数据库,但Patroni服务无法正常接管。
问题分析
当管理员使用pgBackRest从备份恢复数据库后,Patroni服务与恢复后的PostgreSQL实例之间会出现"脱节"现象。这主要是因为:
- Patroni的配置文件(patroni.yml)中缺少正确的恢复配置
- 恢复后的数据库与Patroni的预期状态不匹配
- 可能存在的etcd分布式键值存储中的旧集群信息与新恢复的实例冲突
解决方案
配置Patroni恢复参数
在/etc/patroni/patroni.yml文件中添加以下关键配置:
bootstrap:
method: pgbackrest
pgbackrest:
command: /var/lib/postgresql/bootstrap_pgbackrest.sh
keep_existing_recovery_conf: False
no_params: False
recovery_conf:
recovery_target_action: promote
recovery_target_timeline: latest
recovery_command: pgbackrest --stanza=your-stanza-name archive-get %f %p
创建恢复脚本
编写bootstrap_pgbackrest.sh脚本,内容如下:
#!/bin/bash
pgbackrest --type=immediate --repo1-host=your-backup-host-ip --repo1-host-user=postgres --target-action=promote --stanza=your-stanza-name --set=your-backup-set --log-level-console=detail --archive-mode=off restore
操作步骤
- 确保上述配置文件正确设置
- 为bootstrap_pgbackrest.sh脚本添加可执行权限
- 重启Patroni服务
- 监控恢复过程
自动化恢复方案
对于使用最新版本PostgreSQL集群自动化工具的用户,推荐使用内置的自动化点时间恢复(PITR)功能:
- 在主配置文件中指定恢复参数
- 运行带有特定标签的Ansible playbook
- 系统将自动执行完整的恢复流程
自动化恢复流程包括:
- 停止Patroni服务
- 从DCS中移除旧集群信息
- 执行pgBackRest恢复
- 等待备份恢复完成
- 启动PostgreSQL进行恢复
- 等待WAL应用完成
- 重新配置并启动Patroni服务
- 验证集群健康状态
最佳实践建议
- 定期测试恢复流程,确保在真实灾难发生时能够顺利执行
- 保持自动化工具的版本更新,以获取最新的恢复功能改进
- 为关键恢复操作设置适当的超时参数
- 恢复完成后,务必验证数据库完整性和业务功能
- 考虑实施监控告警,及时发现恢复过程中的问题
通过正确配置Patroni与pgBackRest的集成,可以确保在需要恢复时,数据库集群能够自动、可靠地完成恢复过程,最大限度地减少停机时间和数据丢失风险。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0214
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0138
uni-appA cross-platform framework using Vue.jsJavaScript08
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
项目优选
收起
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
469
465
暂无描述
Dockerfile
778
5.08 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
877
2.03 K
Ascend Extension for PyTorch
Python
758
968
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
697
1.4 K
昇腾LLM分布式训练框架
Python
185
231
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.1 K
1.14 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
271
JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。
Python
2.25 K
677