NVIDIA k8s-device-plugin中GPU资源未分配问题的分析与解决

2025-06-25 07:40:00作者：秋泉律Samson

问题现象描述

在使用NVIDIA k8s-device-plugin时，用户遇到了一个典型问题：尽管节点上已经正确安装了NVIDIA驱动并配置了相关组件，但在Kubernetes节点描述中却没有显示GPU资源信息。具体表现为：

节点描述中Capacity和Allocatable部分缺少GPU相关资源项
节点上已安装NVIDIA驱动（版本535.183.01）并识别到4块Tesla P4 GPU
已配置containerd使用nvidia-container-runtime
已部署nvidia-device-plugin-daemonset

根本原因分析

经过深入分析，这个问题通常由以下几个关键因素导致：

容器运行时配置不完整：虽然containerd配置了nvidia运行时，但可能没有将其设置为默认运行时或配置不完整。
节点标签缺失：Kubernetes节点缺少必要的GPU相关标签，导致调度器无法识别GPU资源。
GPU Feature Discovery(GFD)未部署：GFD负责自动发现和标记节点上的GPU特性，缺少它可能导致资源无法正确上报。

解决方案

1. 完善容器运行时配置

对于containerd用户，需要执行以下命令确保nvidia运行时被正确配置并设置为默认：

nvidia-ctk runtime configure --runtime=containerd --set-as-default

这个命令会自动完成以下工作：

在containerd配置中添加nvidia运行时
将其设置为默认运行时
确保容器能够访问GPU设备

2. 手动添加节点标签

如果暂时不部署GFD，可以手动为节点添加GPU标签：

kubectl label nodes <node-name> nvidia.com/gpu.present=true

更完整的标签集可能包括：

nvidia.com/gpu.count: GPU数量
nvidia.com/gpu.memory: 显存大小
nvidia.com/gpu.product: GPU型号

3. 部署GPU Feature Discovery

长期解决方案是部署GFD组件，它会自动发现并标记节点上的GPU特性：

kubectl apply -f https://raw.githubusercontent.com/NVIDIA/gpu-feature-discovery/v0.8.2/deployments/static/gpu-feature-discovery-daemonset.yaml

GFD将自动完成以下工作：

检测节点上的GPU硬件特性
为节点添加适当的标签
定期更新标签以反映GPU状态变化

验证步骤

实施上述解决方案后，应通过以下方式验证配置是否生效：

检查节点描述是否显示GPU资源：

kubectl describe node <node-name>

预期输出中应包含类似内容：

Capacity:
  nvidia.com/gpu:  4
Allocatable:
  nvidia.com/gpu:  4

检查节点标签是否包含GPU信息：

kubectl get node <node-name> --show-labels

部署测试Pod验证GPU是否可用：

apiVersion: v1
kind: Pod
metadata:
  name: gpu-test
spec:
  containers:
  - name: cuda-container
    image: nvidia/cuda:11.0-base
    command: ["nvidia-smi"]
    resources:
      limits:
        nvidia.com/gpu: 1

深入技术原理

NVIDIA k8s-device-plugin的工作原理涉及多个组件的协同：

设备插件机制：kubelet通过设备插件API与nvidia-device-plugin通信，获取GPU资源信息。
资源上报流程：
- 设备插件检测节点上的GPU设备
- 通过gRPC接口向kubelet注册资源
- kubelet更新节点的API对象
调度与分配：
- 调度器根据节点资源情况进行调度决策
- kubelet在创建容器时通过CDI(Container Device Interface)机制将GPU设备注入容器
运行时集成：
- nvidia-container-runtime在容器启动时设置必要的环境变量和挂载点
- 确保容器内可以访问GPU驱动库和设备文件