Harvester项目中vGPU设备显示异常问题分析与解决

2025-06-14 10:02:01作者：温玫谨Lighthearted

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

问题背景

在Harvester 1.4.0版本的集群环境中，用户报告了一个关于虚拟GPU(vGPU)设备管理的异常情况。该集群由三台裸金属服务器组成，其中两台节点工作正常，但第三台节点(dlps15)上的vGPU设备无法正常显示和创建。尽管通过kubectl可以查看到PCI设备声明(PCI Device Claims)对象存在，但这些设备在Harvester管理界面中不可见，且pcidevice-controller组件持续报错。

问题现象

具体表现为：

在启用SR-IOV GPU设备后，dlps15节点上的vGPU无法创建
通过kubectl可以查询到旧的PCI设备声明对象
pcidevice-controller日志中持续出现设备未找到的错误信息
其他两个节点上的vGPU功能完全正常

根本原因分析

经过技术分析，发现问题的根本原因在于：

该节点上的GPU设备曾经以直通模式(passthrough)分配给某个工作负载使用
在升级过程中(从1.3.2到1.4.0)，旧的PCI设备声明对象与新版本的管理机制产生了兼容性问题
设备被vfio-pci驱动占用，导致NVIDIA驱动无法正常管理该GPU设备
pcidevice-controller组件因无法找到对应的设备声明而进入错误循环状态

解决方案

针对这一问题，提供了两种解决方案：

方案一：重启驱动工具包Pod

定位到问题节点(dlps15)上的driver-toolkit Pod
删除该Pod，使其自动重建
系统会自动重新安装NVIDIA驱动，释放被占用的GPU设备

方案二：重启节点

如果方案一未能解决问题，可以：

安全地重启问题节点
系统启动时会自动重新初始化GPU设备
确保设备被正确的驱动管理

问题验证

用户采用方案一后，成功解决了vGPU显示异常的问题，节点功能恢复正常。

技术建议

在升级Harvester版本前，建议先释放所有GPU直通设备
定期检查PCI设备声明的状态，确保没有残留的声明对象
对于关键生产环境，建议在升级前进行充分测试
遇到类似问题时，可优先检查驱动工具包Pod的状态和日志

总结

该案例展示了Harvester集群中GPU设备管理的一个典型问题，特别是在版本升级过程中可能出现的设备声明不一致情况。通过理解底层机制和采取正确的恢复措施，可以有效解决这类问题，确保GPU资源的正常使用。

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ohos_react_native

React Native鸿蒙化仓库

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理