Postgres Operator在Azure环境中自定义备份与克隆存储账户的配置实践

2025-06-12 06:52:15作者：俞予舒Fleming

背景介绍

Postgres Operator是Zalando开源的一个Kubernetes Operator，用于在Kubernetes集群中管理PostgreSQL数据库集群。它提供了许多强大的功能，包括自动故障转移、备份恢复以及集群克隆等。在Azure云环境中使用时，Operator支持将WAL日志和备份存储到Azure Blob Storage中。

问题场景

在实际生产部署中，我们经常遇到需要为不同的PostgreSQL集群配置独立的Azure存储账户的需求。特别是在以下两种场景中：

备份配置：每个集群需要将WAL日志和备份存储到各自专属的Azure存储账户
克隆操作：从备份创建新集群时，需要指定源集群使用的存储账户

标准配置方式

Postgres Operator提供了两种级别的配置方式：

Operator全局配置：通过OperatorConfiguration资源设置，适用于所有托管集群
集群级别配置：通过PostgreSQL自定义资源中的env字段设置，仅影响特定集群

根据官方文档，只有以WAL_和LOG_前缀的环境变量可以在集群级别被覆盖。这导致在使用CLONE_AZURE_STORAGE_ACCOUNT等克隆相关配置时出现了预期外的行为。

深入分析

配置优先级机制

Operator处理环境变量时遵循特定的优先级顺序：

首先应用Operator全局配置
然后应用集群级别的env覆盖
但对于非WAL/LOG前缀的变量，某些情况下全局配置会强制覆盖集群级别设置

克隆操作的特殊性

克隆操作需要访问两个关键信息：

源备份所在的存储账户(CLONE_AZURE_STORAGE_ACCOUNT)
备份文件的具体路径(CLONE_WALG_AZ_PREFIX)

测试发现，CLONE_WALG_AZ_PREFIX可以被正确覆盖，但CLONE_AZURE_STORAGE_ACCOUNT却始终使用Operator全局配置值。

解决方案与实践

临时解决方案

通过以下步骤可以实现每个集群使用独立存储账户：

在OperatorConfiguration中清空wal_az_storage_account设置
在每个PostgreSQL资源的env部分明确设置：
- AZURE_STORAGE_ACCOUNT
- AZURE_STORAGE_ACCESS_KEY
- WALG_AZ_PREFIX
- CLONE_AZURE_STORAGE_ACCOUNT
- CLONE_WALG_AZ_PREFIX

方案验证

虽然这种配置会在日志中产生"cannot figure out S3 or GS bucket or AZ storage account"的警告信息，但实际克隆操作能够正常完成。这是因为：

必要的环境变量仍通过集群级别的env设置正确传递到了Spilo容器
警告信息仅来源于Operator的配置检查逻辑，不影响Patroni的实际操作

生产环境考量

在使用此方案时需要考虑以下几点：

监控：需要确保监控系统不会将该警告信息误判为严重错误
升级兼容性：未来Operator版本可能会改变这一行为
安全性：每个集群使用独立存储账户增加了访问密钥的管理复杂度
备份策略：需要考虑跨存储账户的备份复制策略，以支持灾难恢复场景

最佳实践建议

对于需要在Azure环境中为不同PostgreSQL集群配置独立存储账户的用户，建议：

统一命名规范：为存储账户、容器和路径制定清晰的命名规则
密钥管理：使用Azure Key Vault或Kubernetes Secrets集中管理访问密钥
文档记录：详细记录每个集群的备份存储位置
测试验证：定期测试从备份恢复和克隆操作
关注更新：留意Postgres Operator新版本中对此功能的改进

总结

Postgres Operator在Azure环境中的存储账户配置提供了灵活性，但在克隆操作场景下存在一些特殊行为。通过理解Operator的配置优先级机制和环境变量处理逻辑，可以找到满足特定需求的解决方案。虽然当前方案会产生警告日志，但在生产环境中经过充分测试后证明是可行的。随着Operator的持续发展，期待未来版本能提供更完善的细粒度存储配置支持。

postgres-operator

Postgres operator creates and manages PostgreSQL clusters running in Kubernetes

项目地址：https://gitcode.com/gh_mirrors/po/postgres-operator

登录后查看全文