Amazon VPC CNI在GPU实例上启动失败问题分析与解决方案

2025-07-02 04:50:59作者：温艾琴Wonderful

问题背景

在使用Amazon EKS集群时，当尝试在g5.xlarge等GPU实例上部署工作负载时，发现aws-node Pod无法正常启动。这个问题特别出现在使用Amazon Linux 2023(AL2023) AMI的GPU实例上，导致整个节点无法进入Ready状态。

问题现象

从日志中可以观察到，aws-node Pod启动失败的主要错误信息是"fork/exec /usr/bin/nvidia-container-runtime: no such file or directory"。这表明系统缺少NVIDIA容器运行时组件，导致容器运行时无法正确初始化。

根本原因分析

经过深入分析，这个问题源于以下几个技术要点：

GPU实例的特殊性：GPU实例需要特定的NVIDIA驱动和容器运行时支持，而标准AL2023 AMI可能不包含这些组件。
容器运行时依赖：Kubernetes在GPU节点上运行时，需要nvidia-container-runtime来处理GPU设备的映射和管理。
Karpenter配置问题：当使用Karpenter管理节点池时，如果仅指定AL2023_GPU作为AMI家族，而没有明确指定包含NVIDIA支持的特定AMI，会导致节点启动时缺少必要的GPU支持组件。

解决方案

针对这个问题，我们推荐以下解决方案：

明确指定AMI：在Karpenter的EC2NodeClass配置中，不使用AL2023_GPU这个模糊的AMI家族标识，而是直接指定包含NVIDIA支持的特定AMI ID。
配置示例：

apiVersion: karpenter.k8s.aws/v1beta1
kind: EC2NodeClass
metadata:
  name: ml-test
spec:
  amiFamily: AL2023
  amiSelectorTerms:
    - id: ami-0ab46b6e2dbe2a9d9

技术原理

这个解决方案有效的根本原因在于：

AMI选择精确性：直接指定AMI ID确保了节点启动时使用的镜像确实包含NVIDIA容器运行时等必要组件。
组件完整性：正确的AMI包含了预装的NVIDIA驱动、CUDA工具包和nvidia-container-runtime，这些都是GPU实例正常运行的必要条件。
启动顺序保证：有了正确的运行时支持，kubelet能够正常启动aws-node等系统Pod，进而使整个节点进入Ready状态。