Terraform AWS EKS Blueprints中Karpenter SQS模块在中国区的服务标识问题解析

2025-06-28 11:12:12作者：秋阔奎Evelyn

问题背景

在AWS中国区域（如cn-north-1）使用Terraform AWS EKS Blueprints项目部署Karpenter时，其配套的SQS队列策略配置存在一个关键问题：服务主体(Principal)标识错误地添加了".cn"后缀，导致策略验证失败。这个问题直接影响Karpenter的事件驱动自动扩缩容功能的正常运作。

技术细节分析

错误表现

在生成的SQS队列策略中，服务主体被错误配置为：

"Service": [
    "sqs.amazonaws.com.cn",
    "events.amazonaws.com.cn"
]

这种配置会导致AWS API返回400错误，提示"InvalidAttributeValue: Invalid value for the parameter Policy"。

根本原因

AWS服务标识(Service Principal)在中国区的命名规范与其他商业区域不同。虽然AWS中国区的终端节点(endpoint)确实使用".cn"后缀（如sqs.cn-north-1.amazonaws.com.cn），但服务主体标识却不应该包含这个后缀。

正确配置

在中国区，SQS和EventBridge的服务主体应该保持标准格式：

"Service": [
    "sqs.amazonaws.com",
    "events.amazonaws.com"
]

影响范围

此问题会影响所有在以下中国区域部署的用户：

北京区域(cn-north-1)
宁夏区域(cn-northwest-1)

主要影响功能包括：

Karpenter通过SQS接收EC2状态变更事件
EventBridge规则向SQS队列推送事件

解决方案

对于使用terraform-aws-eks-blueprints项目的用户，可以采取以下临时解决方案：

覆盖模块中的策略配置：

module "karpenter_sqs" {
  # ...其他参数...
  
  queue_policy = jsonencode({
    Version = "2012-10-17"
    Statement = [
      {
        Effect    = "Allow"
        Principal = {
          Service = [
            "sqs.amazonaws.com",
            "events.amazonaws.com"
          ]
        }
        Action   = "sqs:SendMessage"
        Resource = "arn:aws-cn:sqs:${var.region}:${data.aws_caller_identity.current.account_id}:karpenter-${var.cluster_name}"
        Sid      = "SendEventsToQueue"
      }
    ]
  })
}

或者通过策略合并方式修正服务主体：

data.aws_iam_policy_document.custom {
  source_policy_documents = [module.karpenter_sqs.queue_policy]
  
  statement {
    sid = "SendEventsToQueue"
    principals {
      type = "Service"
      identifiers = [
        "sqs.amazonaws.com",
        "events.amazonaws.com"
      ]
    }
    # 保持其他配置不变
  }
}

最佳实践建议

对于多区域部署，建议使用条件表达式动态确定服务主体：

locals {
  is_china_region = can(regex("^cn-", var.region))
  service_principals = local.is_china_region ? [
    "sqs.amazonaws.com",
    "events.amazonaws.com"
  ] : [
    "sqs.amazonaws.com",
    "events.amazonaws.com"
  ]
  # 注意：虽然当前示例中值相同，但保留了扩展性
}