Harvester项目中NVIDIA驱动运行时镜像拉取策略的优化实践

2025-06-14 23:58:20作者：魏献源Searcher

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

背景介绍

在容器化环境中，镜像拉取策略(imagePullPolicy)是一个重要的配置参数，它决定了kubelet在启动容器时如何获取容器镜像。Harvester作为一个基于Kubernetes的轻量级虚拟化管理平台，其NVIDIA驱动运行时组件(nvidia-driver-runtime)默认使用了"Always"的拉取策略，这在特定环境下可能会引发一些问题。

问题分析

"Always"策略意味着每次启动容器时都会尝试从镜像仓库拉取最新镜像。这种策略在以下场景中可能带来问题：

离线或网络受限环境：当Harvester运行在隔离网络(air-gap)环境中时，如果无法访问外部镜像仓库，容器将无法启动
网络不稳定环境：在网络连接不稳定的情况下，可能导致容器启动失败并进入ImagePullBackoff状态
资源消耗：每次启动都拉取镜像会增加网络带宽和存储I/O的消耗

解决方案

经过技术团队评估，决定将默认拉取策略修改为"IfNotPresent"。这种策略具有以下优势：

本地优先：如果节点上已存在所需镜像，则直接使用本地镜像，不再尝试拉取
稳定性提升：在网络不可达的情况下，只要本地有镜像就能保证服务正常运行
资源节约：避免了不必要的镜像拉取操作

技术实现细节

该修改涉及Harvester项目中的nvidia-driver-runtime Helm chart配置变更。由于该chart使用固定标签(tag)的镜像，且这些标签是固定不变的，因此修改拉取策略不会影响镜像更新机制。即使使用"IfNotPresent"策略，当需要更新镜像版本时，仍然可以通过修改镜像标签来实现。