KServe 中 GPU 资源分配问题的排查与解决方案

2025-06-16 09:51:20作者：管翌锬

问题背景

在使用 KServe 部署基于 vLLM 后端的 HuggingFace 模型服务时，遇到了一个典型的 GPU 资源分配问题。具体表现为服务 Pod 不断进入 CrashBackoffLoop 状态，并报错"Failed to start model server: integer division or modulo by zero"。这个错误表面看起来是数学运算错误，但实际上反映了更深层次的 GPU 资源访问问题。

问题现象分析

当用户尝试部署一个使用 vLLM 后端的 HuggingFace 模型服务时，虽然正确配置了 GPU 资源请求（nvidia.com/gpu: "1"），但服务无法正常启动。值得注意的是：

非 vLLM 后端的 HuggingFace 服务可以正常加载
手动部署的 vLLM 容器可以正常运行
GPU 资源确实被分配给了 Pod（阻止了其他 GPU Pod 的调度）

这些现象表明问题不是简单的 GPU 资源不足，而是与 KServe 环境下的 GPU 访问机制有关。

根本原因

经过深入排查，发现问题根源在于 Kubernetes 运行时环境的配置。具体来说：

用户使用的是自定义的 k3d 环境，其中 NVIDIA 运行时类（runtimeClass）没有被设置为默认运行时
KServe 在创建 Pod 时没有显式指定使用 NVIDIA 容器运行时
虽然 GPU 资源被分配，但容器运行时无法正确访问 GPU 设备

这种配置导致 vLLM 后端在尝试检测和访问 GPU 时失败，进而触发了底层数学运算错误（因为 GPU 数量检测返回了意外值）。

解决方案

解决这个问题的关键在于确保 Pod 使用正确的容器运行时。具体方法是在 InferenceService 的 predictor 部分显式指定 runtimeClassName：

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: huggingface-llama2
spec:
  predictor:
    runtimeClassName: nvidia  # 关键配置
    model:
      modelFormat:
        name: huggingface
      # 其他配置...
      resources:
        limits:
          nvidia.com/gpu: "1"
        requests:
          nvidia.com/gpu: "1"

技术要点

Kubernetes 运行时类（RuntimeClass）：这是 Kubernetes 中指定容器运行时的机制，对于 GPU 工作负载，通常需要指定为 NVIDIA 运行时。
GPU 资源分配的双重验证：在 Kubernetes 中使用 GPU 不仅需要在资源请求中声明，还需要确保 Pod 使用能够访问 GPU 设备的容器运行时。
KServe 的特殊性：与直接使用 Deployment 不同，KServe 的 InferenceService 需要特别注意运行时的配置，因为它会生成更复杂的 Pod 模板。