NVIDIA GPU Operator 使用环境变量配置GPU资源访问的实践指南

2025-07-04 15:25:29作者：邬祺芯Juliet

问题背景

在使用NVIDIA GPU Operator为Kubernetes集群添加GPU支持时，很多开发者会遇到一个常见误区：认为必须通过资源限制（resource limits）来声明GPU资源使用。实际上，在GPU Operator环境中，更推荐使用环境变量方式来配置GPU设备的可见性和能力。

典型错误配置

开发者通常会按照传统Kubernetes资源管理方式，在Pod规范中添加如下资源限制：

resources:
  limits:
    nvidia.com/gpu: 1

这种配置在某些情况下会导致"nvidia.com/gpu资源不足"的错误，即使节点上确实有可用的GPU设备。这是因为GPU Operator的工作机制与传统Kubernetes GPU资源管理有所不同。

正确配置方法

在GPU Operator环境中，正确的做法是通过以下两个关键环境变量来配置GPU访问：

env:
- name: NVIDIA_VISIBLE_DEVICES
  value: all
- name: NVIDIA_DRIVER_CAPABILITIES
  value: all

环境变量详解

NVIDIA_VISIBLE_DEVICES：控制哪些GPU设备对容器可见
- 设置为"all"表示容器可以访问节点上的所有GPU设备
- 也可以指定具体的GPU索引，如"0,1"表示只使用前两个GPU
NVIDIA_DRIVER_CAPABILITIES：定义容器可以使用的驱动功能
- "all"表示启用所有功能（计算、图形、视频编解码等）
- 也可以指定特定功能组合，如"compute,utility"

完整示例

以下是一个完整的Pod定义示例，展示了如何在GPU Operator环境中正确配置CUDA工作负载：

apiVersion: v1
kind: Pod
metadata:
  name: cuda-vectoradd
spec:
  restartPolicy: OnFailure
  containers:
  - name: vectoradd
    image: nvcr.io/nvidia/k8s/cuda-sample:vectoradd-cuda10.2
    env:
    - name: NVIDIA_VISIBLE_DEVICES
      value: all
    - name: NVIDIA_DRIVER_CAPABILITIES
      value: all