Harvester 单节点升级过程中镜像拉取问题分析与解决

2025-06-14 22:13:20作者：薛曦旖Francesca

问题现象

在将单节点 Harvester 从 v1.4.2 升级到 v1.5.0-rc4 版本的过程中，系统在"下载升级镜像"阶段停滞不前。通过检查发现，upgradelog-infra-fluentbit Pod 处于 ImagePullBackOff 状态，无法正常拉取所需的容器镜像。

环境背景

该问题出现在以下环境中：

基础版本：Harvester v1.4.2
目标版本：v1.5.0-rc4
部署方式：单节点裸金属服务器
相关组件：Rancher v2.10.2 管理

问题分析

通过对支持包和日志的分析，发现主要问题集中在以下几个方面：

镜像拉取失败：系统无法从公共镜像仓库拉取 fluent/fluent-bit:2.1.8 镜像，导致升级流程中断。
版本同步问题：在升级过程中，系统报告"versions.harvesterhci.io 'v1.5.0-rc4' not found"错误，表明版本同步机制存在问题。
网络连通性：虽然基础网络测试（ping 8.8.8.8 和 Google）显示正常，但特定镜像仓库的访问可能存在间歇性问题。

根本原因

深入分析后，确定问题的主要原因是：

镜像缓存问题：系统中已有的旧版本镜像可能与新版本升级流程产生冲突。
版本同步延迟：Harvester 的版本同步器每小时运行一次，可能导致在升级开始时版本信息尚未完全同步。
镜像源稳定性：公共镜像仓库的访问可能受到速率限制或临时不可用影响。

解决方案

经过多次测试验证，以下解决方案被证明有效：

清理旧镜像：手动删除以下三个与日志收集相关的镜像：
- fluent/fluent-bit:2.1.8
- ghcr.io/kube-logging/fluentd:v1.15-ruby3
- ghcr.io/kube-logging/config-reloader:v0.0.5
重新启动升级：在清理镜像后重新启动升级流程，系统能够顺利完成镜像下载和升级过程。
网络检查：确保升级环境具有稳定的互联网连接，特别是对公共镜像仓库的访问。

最佳实践建议

为避免类似问题，建议在升级前执行以下步骤：

检查并清理可能产生冲突的旧版本镜像。
验证所有必需镜像仓库的网络连通性。
确保系统时间同步准确，避免证书验证问题。
在低峰期执行升级操作，减少被镜像仓库限速的风险。
对于生产环境，考虑预先下载所需镜像到本地镜像仓库。

总结

Harvester 的升级过程依赖于多个外部镜像仓库的可用性。当遇到升级卡顿时，管理员应首先检查相关 Pod 的状态和日志，重点关注镜像拉取情况。通过合理的预处理和问题排查，可以显著提高升级成功率。对于关键业务环境，建议建立镜像缓存机制，减少对外部仓库的依赖。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。