MicroK8s 中使用 NVIDIA H100 GPU 的配置指南

2025-05-26 04:26:28作者：沈韬淼Beryl

问题背景

在 Kubernetes 集群中使用高性能 GPU 资源是现代 AI 和机器学习工作负载的常见需求。本文记录了在 MicroK8s 环境中配置和使用 NVIDIA H100 GPU 的完整过程，包括遇到的问题及其解决方案。

环境准备

首先需要在 Azure 虚拟机上部署以下环境：

Ubuntu 操作系统
NVIDIA H100 GPU 硬件
已安装 NVIDIA 驱动程序 550.90.07 版本
CUDA 12.4 环境

初始配置步骤

安装 MicroK8s 1.28/stable 版本
启用必要的 MicroK8s 插件：DNS、hostpath-storage、ingress、metallb 和 RBAC
尝试启用 GPU 支持并部署测试 Pod

遇到的问题

在初始配置后，测试 Pod 无法正常调度，出现以下关键错误信息：

Pod 调度失败，提示 "Insufficient nvidia.com/gpu"
NVIDIA 容器工具包日志显示设备节点创建失败
验证容器报告无法创建 /dev/nvidiactl 的符号链接

根本原因分析

经过排查，发现问题的核心在于：

默认安装的 GPU Operator 版本(v23.9.1)不完全支持 H100 GPU 和较新的驱动程序(550系列)
系统存在设备节点创建冲突
符号链接验证机制与新硬件存在兼容性问题

解决方案

经过多次尝试，最终确定以下配置方案可以解决问题：

使用特定版本的 GPU Operator：通过指定 v24.3.0 版本的 GPU Operator 解决了兼容性问题：
```
microk8s enable gpu --version v24.3.0
```
使用更新的测试镜像：替换原来的测试镜像为 NVIDIA 官方提供的新版本：
```
image: "nvidia/samples:vectoradd-cuda11.2.1"
```

完整的测试 Pod 配置：

apiVersion: v1
kind: Pod
metadata:
  name: cuda-vectoradd
spec:
  restartPolicy: OnFailure
  containers:
  - name: cuda-vectoradd
    image: "nvidia/samples:vectoradd-cuda11.2.1"
    resources:
      limits:
        nvidia.com/gpu: 1

验证结果

应用上述配置后，测试 Pod 成功运行并输出：

[Vector addition of 50000 elements]
Test PASSED

注意事项

较新版本的 GPU Operator(如 v24.9.0)可能会引入新的兼容性问题
YAML 文件中的缩进必须严格正确
不同版本的 CUDA 可能需要匹配不同的测试镜像

总结

在 MicroK8s 中使用最新的 NVIDIA GPU 硬件时，需要注意选择合适的 GPU Operator 版本和测试镜像。本文提供的配置方案经过实际验证，可以作为在类似环境中部署 H100 GPU 的参考。对于生产环境，建议在部署前充分测试不同版本的组合，确保系统稳定性。

登录后查看全文