Zalando Postgres Operator 中 WAL-G 备份功能故障分析与解决方案

2025-06-12 20:50:56作者：卓艾滢Kingsley

背景概述

Zalando Postgres Operator 是一个用于在 Kubernetes 环境中管理 PostgreSQL 集群的开源工具。在版本升级过程中，用户发现从 1.12.2 升级到 1.13.0 后，WAL-G 备份功能出现故障，而逻辑备份(pg_dump)仍能正常工作。

问题现象

当使用 Postgres Operator 1.13.0 版本配合 Spilo 16:3.3-p1 镜像时，WAL-G 备份功能失效，具体表现为执行备份时出现以下错误：

create S3 storage: create new AWS session: configure session: assume role by ARN: InvalidParameter: 1 validation error(s) found.
- minimum field size of 2, AssumeRoleInput.RoleSessionName.

值得注意的是，这一问题仅在使用服务账户(Servcie Account)通过 IAM 角色访问 S3 存储时出现，且仅影响基础备份(basebackup)功能，逻辑备份功能仍能正常工作。

根本原因分析

经过深入调查，发现问题根源在于 WAL-G 工具的版本变更。具体来说：

WAL-G 在 v2.0.1 之后的版本中引入了一个变更，要求必须同时提供 AWS_ROLE_ARN 和 AWS_ROLE_SESSION_NAME 参数
新版本对角色会话名称(RoleSessionName)的格式有严格限制，不允许包含冒号(:)等特殊字符
Kubernetes 服务账户名称通常包含冒号(如 system:serviceaccount:namespace:sa-name)，这与 WAL-G 的新验证规则冲突

影响范围

该问题影响以下组件组合：

Postgres Operator 1.13.0 及以上版本
Spilo 镜像 3.3-p1 及以上版本(包含 WAL-G v3.0.3)
使用 IAM 角色服务账户(IAM Roles for Service Accounts, IRSA)进行 AWS S3 认证的环境

解决方案

目前有以下几种可行的解决方案：

临时解决方案

降级 Spilo 镜像：继续使用 Postgres Operator 1.13.0，但将 Spilo 镜像降级至 3.2-p3 版本(包含 WAL-G v2.0.1)

配置示例：
```
configGeneral:
  docker_image: ghcr.io/zalando/spilo-16:3.2-p3
```
降级整个 Operator：回退到 Postgres Operator 1.12.2 版本和配套的 Spilo 镜像