NVIDIA k8s-device-plugin 在DGX A100服务器上的安装问题分析

2025-06-25 00:27:48作者：滑思眉Philip

问题背景

在DGX A100服务器上部署Kubernetes集群时，安装nvidia-device-plugin组件遇到了CrashLoopBackOff错误。该插件是Kubernetes中用于管理NVIDIA GPU资源的关键组件，负责将GPU资源暴露给Kubernetes调度器使用。

错误现象

通过kubectl describe命令查看pod状态，发现nvidia-device-plugin容器不断重启，状态为CrashLoopBackOff。查看容器日志显示以下关键错误信息：

I0417 03:40:28.205998 1 factory.go:104] Detected non-NVML platform: could not load NVML library: libnvidia-ml.so.1: cannot open shared object file: No such file or directory
E0417 03:40:28.206033 1 factory.go:112] Incompatible platform detected
E0417 03:40:28.206037 1 factory.go:113] If this is a GPU node, did you configure the NVIDIA Container Toolkit?

根本原因分析

从日志信息可以判断，问题的核心在于容器运行时环境缺少必要的NVIDIA组件支持，具体表现为：

NVML库缺失：容器内无法加载libnvidia-ml.so.1库文件，这是NVIDIA管理库(NVIDIA Management Library)的核心组件
容器运行时配置不当：未正确配置containerd使用NVIDIA容器运行时，导致容器无法访问宿主机上的GPU驱动和工具链
平台兼容性问题：插件检测到当前平台不兼容，无法正常初始化

解决方案

要解决这个问题，需要完成以下几个关键配置步骤：

1. 安装NVIDIA容器工具包

必须在宿主机上安装NVIDIA Container Toolkit，它提供了容器运行时与GPU驱动之间的桥梁。安装后需要确保以下组件可用：

nvidia-container-runtime
nvidia-container-toolkit
libnvidia-container

2. 配置containerd使用NVIDIA运行时

编辑containerd配置文件，通常位于/etc/containerd/config.toml，添加nvidia作为运行时：

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes]
  [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]
    privileged_without_host_devices = false
    runtime_engine = ""
    runtime_root = ""
    runtime_type = "io.containerd.runc.v2"
    [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]
      BinaryName = "/usr/bin/nvidia-container-runtime"

3. 创建RuntimeClass

如果nvidia不是默认运行时，需要在Kubernetes中创建RuntimeClass资源：

apiVersion: node.k8s.io/v1
kind: RuntimeClass
metadata:
  name: nvidia
handler: nvidia

然后在部署nvidia-device-plugin时指定使用这个RuntimeClass。

4. 验证环境

完成上述配置后，应该验证：

nvidia-smi命令在宿主机上能否正常执行
简单GPU容器能否运行（如nvidia/cuda:11.0-base）
containerd日志中是否有关于nvidia运行时的错误信息

经验总结

在GPU服务器上部署Kubernetes时，容器运行时的正确配置是关键。NVIDIA设备插件依赖于完整的GPU驱动栈和正确的容器运行时配置。常见问题排查步骤应包括：

检查宿主机NVIDIA驱动是否安装正确
验证NVIDIA容器工具包是否安装并配置
确认容器运行时（如containerd）是否正确集成了NVIDIA运行时
检查Kubernetes RuntimeClass配置（如非默认运行时）
查看设备插件日志获取具体错误信息

通过系统性地检查这些环节，可以解决大多数nvidia-device-plugin部署问题。

k8s-device-plugin

NVIDIA device plugin for Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/k8s/k8s-device-plugin

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.24 K

680