NVIDIA k8s-device-plugin中MPS模式下的GPU计算模式配置优化

2025-06-25 15:12:44作者：庞眉杨Will

在Kubernetes集群中使用NVIDIA GPU资源时，k8s-device-plugin作为关键的设备插件，负责GPU资源的调度和管理。其中MPS(Multi-Process Service)模式是一种特殊的GPU共享方案，它允许多个进程共享同一块GPU的计算资源。但在实际生产环境中，MPS模式对GPU计算模式有特定要求，这需要我们在容器部署时进行特殊处理。

MPS模式与GPU计算模式的关系

当启用MPS模式时，NVIDIA官方建议将GPU的计算模式设置为EXCLUSIVE_PROCESS。这种计算模式的特点是：

同一时间只允许一个CUDA上下文进程访问GPU
但该进程可以创建多个子进程共享GPU资源
避免了不同应用间的上下文切换开销

这与默认的DEFAULT计算模式有本质区别，后者允许多个不相关的进程直接访问GPU，可能导致资源冲突和性能下降。

Kubernetes中的解决方案

在Kubernetes环境下，我们可以通过initContainer机制优雅地解决这个问题。initContainer是Pod中在主容器启动前运行的初始化容器，它非常适合用来执行环境准备和配置工作。

具体实现方案是在Pod定义中添加一个initContainer，该容器将执行以下操作：

检测节点上的GPU设备
使用nvidia-smi工具将GPU计算模式设置为EXCLUSIVE_PROCESS
确保配置完成后主容器才启动

这种方案的优势在于：

配置过程与业务容器解耦
遵循Kubernetes的最佳实践
可以确保配置在业务容器运行前完成
配置过程失败会阻止Pod启动，便于问题排查

实际配置示例

以下是一个典型的Pod配置片段，展示了如何使用initContainer设置GPU计算模式：

apiVersion: v1
kind: Pod
metadata:
  name: gpu-app
spec:
  initContainers:
  - name: set-gpu-mode
    image: nvidia/cuda:11.0-base
    command: ["nvidia-smi", "-i", "0", "-c", "EXCLUSIVE_PROCESS"]
    securityContext:
      privileged: true
    resources:
      limits:
        nvidia.com/gpu: 1
  containers:
  - name: main-container
    image: my-gpu-app
    resources:
      limits:
        nvidia.com/gpu: 1