Harvester项目中VM导入控制器在离线环境下的镜像拉取问题解析

2025-06-14 13:40:04作者：沈韬淼Beryl

问题背景

在Harvester v1.4.0和v1.4.1-rc1版本中，当用户尝试在完全离线的环境(airgapped)中部署集群时，VM导入控制器(VM Import Controller)会出现一个关键问题：相关Pod会陷入ImagePullBackoff状态，导致功能无法正常使用。这个问题在v1.4-d166b637-head版本中得到了修复。

问题现象

在离线环境中部署Harvester集群后，VM导入控制器相关的Pod无法正常启动，检查Pod状态会发现处于ImagePullBackoff状态。这主要是因为系统无法从外部拉取所需的容器镜像。

具体表现为：

harvester-vm-import-controller Pod无法启动
查看Pod事件会显示镜像拉取失败的错误
相关功能完全不可用

问题根源

经过分析，这个问题主要由以下几个因素导致：

离线环境限制：在完全离线的环境中，Harvester集群无法访问外部镜像仓库来拉取VM导入控制器所需的容器镜像。
默认配置问题：原始版本中，UI相关的设置(如ui-index、ui-plugin-index等)默认指向外部网络地址，这在离线环境中显然无法工作。
版本同步问题：在v1.4.0和v1.4.1-rc1版本中，没有包含完整的离线部署支持，特别是对于VM导入控制器这一组件。

解决方案

开发团队通过以下方式解决了这个问题：

版本更新：在v1.4-d166b637-head版本中，包含了完整的修复方案。
镜像内置：将VM导入控制器所需的容器镜像(rancher/harvester-vm-import-controller:v0.4.1)内置到ISO中，确保离线环境可以直接使用。
PVC自动配置：系统现在能够自动为VM导入控制器创建持久卷声明(PVC)，使用harvester-longhorn存储类，容量为223Gi。

验证结果

在修复后的版本中，验证显示：

VM导入控制器Pod能够正常启动并运行
持久卷声明(PVC)自动创建成功并绑定到Pod
部署状态显示为可用(Available)和进行中(Progressing)
所有相关功能在离线环境中工作正常

技术实现细节

修复后的VM导入控制器部署具有以下特点：

资源限制：设置了合理的资源限制(CPU: 4核，内存: 8Gi)和请求(CPU: 2核，内存: 4Gi)
存储配置：使用持久化存储(/tmp挂载点)来保存临时数据
策略选择：采用Recreate部署策略，确保更新时先终止旧实例再创建新实例
服务账户：使用专用的服务账户(harvester-vm-import-controller)运行

对用户的影响

这一修复对用户带来的主要好处包括：

离线部署支持：现在可以在完全离线的环境中使用VM导入功能
稳定性提升：避免了因镜像拉取失败导致的功能不可用问题
自动化程度提高：存储资源配置完全自动化，无需人工干预

最佳实践建议

对于需要在离线环境中使用Harvester的用户，建议：

使用包含此修复的版本(v1.4-d166b637-head或更高)
在部署前确认ISO镜像包含所有必需的组件
确保集群有足够的资源(特别是存储资源)来支持VM导入操作
定期检查Pod和PVC状态，确保系统正常运行

这一修复显著提升了Harvester在离线环境中的可用性和稳定性，为用户提供了更完整的功能体验。

登录后查看全文