CrunchyData Postgres-Operator中使用IRSA实现S3备份的配置指南

2025-06-15 08:56:23作者：冯爽妲Honey

背景介绍

在Kubernetes环境中使用CrunchyData Postgres-Operator管理PostgreSQL数据库时，将备份存储到AWS S3是一种常见的需求。使用IAM Roles for Service Accounts (IRSA)可以实现安全的AWS凭证管理，但配置过程中可能会遇到一些挑战。

问题现象

用户在OpenShift(ROSA)环境中配置Postgres-Operator使用IRSA进行S3备份时，遇到了两种典型错误：

缺少AWS_ROLE_ARN和AWS_WEB_IDENTITY_TOKEN_FILE环境变量的错误提示
出现"unable to find child 'AssumeRoleWithWebIdentityResult'"的错误响应

根本原因分析

经过深入排查，发现问题主要源于以下两个关键点：

服务账户注解问题：Postgres-Operator中的repo-host StatefulSet默认使用default服务账户，而该账户没有配置IRSA所需的注解
配置传递问题：备份作业和repo-host组件之间的AWS凭证环境变量没有正确传递

解决方案

1. 正确配置服务账户

确保用于备份的服务账户已正确配置IRSA注解。对于repo-host组件，需要特别注意：

apiVersion: v1
kind: ServiceAccount
metadata:
  name: default  # 或您使用的特定服务账户名称
  annotations:
    eks.amazonaws.com/role-arn: arn:aws:iam::ACCOUNT_ID:role/IAM_ROLE_NAME

2. 配置pgBackRest

在pgBackRest的s3.conf配置文件中，确保包含以下关键设置：

[global]
repo1-s3-key-type = web-id
repo1-s3-region = your-region
repo1-s3-endpoint = s3.your-region.amazonaws.com

3. 验证环境变量

确保以下环境变量在repo-host Pod中正确设置：

AWS_ROLE_ARN
AWS_WEB_IDENTITY_TOKEN_FILE

可以通过以下命令验证：

kubectl exec -it <repo-host-pod> -- env | grep AWS

4. 重启相关组件

配置变更后，需要重启repo-host StatefulSet以使更改生效：

kubectl rollout restart statefulset <repo-host-statefulset-name>

最佳实践建议

专用服务账户：为pgBackRest备份创建专用的服务账户，而不是使用default账户
权限最小化：为IAM角色配置仅限必要操作的权限策略
配置验证：
- 使用临时Pod验证服务账户配置
- 测试基本的S3操作权限
日志监控：设置适当的日志级别和监控，以便及时发现备份问题

故障排查技巧

手动测试：创建一个临时Pod使用相同服务账户，尝试执行AWS CLI操作验证权限
检查令牌文件：验证AWS_WEB_IDENTITY_TOKEN_FILE指向的文件是否存在且内容有效
角色信任关系：仔细检查IAM角色的信任关系策略，确保服务账户能够担任该角色
网络连接：确认Pod能够访问AWS STS和S3端点

通过以上配置和验证步骤，可以确保CrunchyData Postgres-Operator能够成功使用IRSA实现到S3的备份功能。这种方案不仅提高了安全性，还简化了凭证管理，是云原生环境中推荐的实践方式。

postgres-operator

Production PostgreSQL for Kubernetes, from high availability Postgres clusters to full-scale database-as-a-service.

项目地址：https://gitcode.com/gh_mirrors/post/postgres-operator

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.26 K

692