Amazon EKS GPU节点NVIDIA驱动加载问题分析与解决方案

2025-06-30 21:05:07作者：廉皓灿Ida

Packer configuration for building a custom EKS AMI

项目地址：https://gitcode.com/GitHub_Trending/am/amazon-eks-ami

问题背景

在使用Amazon EKS GPU节点时，部分用户报告了NVIDIA驱动无法正常加载的问题。这一问题主要出现在使用特定版本的Amazon EKS优化AMI镜像（如amazon-eks-gpu-node-1.29-v20240227）时，特别是在p3.2xlarge等实例类型上。

问题现象

当用户部署了基于这些AMI镜像的GPU节点后，尝试运行CUDA容器时发现无法与GPU通信。通过SSH登录节点后执行nvidia-smi命令，会收到如下错误信息：

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running

根本原因分析

经过深入调查，发现该问题主要由两个技术因素导致：

错误的NVIDIA内核模块加载：系统错误地将这些实例类型识别为支持开源NVIDIA内核模块，导致加载了不兼容的kmod驱动模块。
服务启动顺序问题：在节点初始化过程中，configure-nvidia.service与bootstrap.sh之间存在竞争条件。configure-nvidia服务在完成前就被bootstrap进程覆盖了其生成的containerd配置文件。

临时解决方案

对于遇到此问题的用户，可以采取以下临时解决方案：

手动修复驱动加载问题

对于第一个问题，可以通过SSH登录到节点后执行以下命令强制加载正确的NVIDIA驱动模块：

sudo rm -r /var/lib/dkms/nvidia
sudo dkms install nvidia/535.161.07 --force

执行后，nvidia-smi应能正常显示GPU信息。

解决containerd配置问题

对于第二个问题，可以通过修改Karpenter的userData来确保正确的containerd配置：

apiVersion: karpenter.k8s.aws/v1beta1
kind: EC2NodeClass
metadata:
  name: nvidia-a10g
spec:
  userData: |
    cat <<EOF > /etc/eks/containerd/containerd-config.toml
    [此处应包含完整的containerd配置内容]
    EOF

官方修复

AWS团队已经确认这些问题，并在最新的AMI版本v20240409中提供了完整的修复方案。新版本AMI解决了以下问题：

正确识别实例类型并加载适当的NVIDIA内核模块
修复了configure-nvidia.service与bootstrap.sh之间的竞争条件

最佳实践建议

对于生产环境中的GPU节点部署，建议：

始终使用最新的EKS优化AMI镜像
在升级AMI版本前，先在测试环境验证CUDA工作负载
考虑使用NVIDIA GPU Operator作为更全面的GPU管理解决方案
对于关键业务系统，建立节点健康检查机制，确保GPU驱动正常工作

通过以上措施，可以确保Amazon EKS集群中的GPU节点稳定运行，充分发挥其计算能力。

Packer configuration for building a custom EKS AMI

项目地址：https://gitcode.com/GitHub_Trending/am/amazon-eks-ami

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。