NVIDIA容器工具包在AWS ECS上GPU访问丢失问题分析与解决方案

2025-06-26 11:28:13作者：余洋婵Anita

问题背景

在使用NVIDIA容器工具包(nvidia-container-toolkit)时，部分用户在AWS ECS环境中遇到了GPU访问丢失的问题。具体表现为：容器启动后能够正常访问GPU，但运行一段时间(几分钟到几小时不等)后突然失去GPU访问能力，且该状态会持续到任务重启为止。

环境配置

典型的问题环境配置如下：

操作系统：Amazon Linux 2 (内核版本4.14.336-257.568.amzn2.x86_64)
Docker版本：20.10.25
NVIDIA驱动版本：550.73
NVIDIA容器工具包版本：1.13.5
GPU型号：Tesla T4
容器基础镜像：debian:sid-slim

问题现象

容器初始运行时可以正常检测和使用GPU
运行一段时间后，应用程序报告无法访问GPU设备
错误信息可能表现为"Unrecognized device error ERROR_INITIALIZATION_FAILED"或"CUD_ERROR_NO_DEVICE"
通过docker exec进入同一容器执行相同命令却能正常工作
只有重启容器才能恢复GPU访问

根本原因分析

这个问题主要与NVIDIA容器工具包的工作机制有关。在传统注入机制(legacy injection mechanism)下，nvidia-container-runtime-hook会对容器进行cgroup修改，但这些修改不会被容器引擎(如Docker)感知。当执行某些容器更新操作(如docker update)时，这些修改会被覆盖，导致GPU访问丢失。

解决方案

方案一：显式添加设备节点

在docker run命令中显式添加NVIDIA设备节点，确保它们不会被后续更新操作移除：

docker run --device /dev/nvidiactl \
           --device /dev/nvidia-uvm \
           --device /dev/nvidia-uvm-tools \
           --device /dev/nvidia-modeset \
           ...

方案二：创建设备字符链接

通过以下命令创建并确保设备字符链接存在：

sudo nvidia-ctk system create-dev-char-symlinks --create-all

为确保系统重启后仍有效，可以创建udev规则：

echo 'ACTION=="add", DEVPATH=="/bus/pci/drivers/nvidia", RUN+="/usr/bin/nvidia-ctk system create-dev-char-symlinks --create-all"' | sudo tee /lib/udev/rules.d/71-nvidia-dev-char.rules