Harvester项目升级过程中Pre-drained状态卡住问题分析与解决方案

2025-06-14 18:00:29作者：戚魁泉Nursing

问题背景

在Harvester v1.4.1升级至v1.4.2-rc1版本的过程中，部分用户遇到了集群升级卡在"Pre-drained"状态的问题。这一问题主要发生在包含多个节点且运行有虚拟机的环境中，表现为升级流程无法继续进行，严重影响生产环境的可用性。

问题现象

当升级流程启动后，系统会进入节点排空(Drain)阶段，但在此阶段会长时间停滞。通过日志分析发现，系统无法正常排空某些节点上的Longhorn实例管理器(Instance Manager)Pod。进一步检查发现，这些Pod上仍有卷处于挂载状态，导致Kubernetes无法安全地将其驱逐。

根本原因分析

经过深入的技术调查，我们发现这一问题由多个因素共同导致：

卷迁移中断：当虚拟机正在进行跨节点迁移时，如果遇到I/O错误，迁移过程会被中断，但原节点上的引擎实例可能无法正常清理。
快照文件异常：Longhorn引擎在尝试访问某些快照文件时失败，错误信息显示无法获取特定快照文件的大小。这通常发生在快照文件被替换但引用未完全更新的情况下。
双重引擎实例：在某些情况下，一个卷会同时存在两个引擎实例(分别位于源节点和目标节点)，这种状态本应是临时的，但由于I/O错误导致无法完成迁移，使系统保持在这种异常状态。
I/O错误传播：当多个副本同时报告错误状态时，整个卷将变得不可用，进而导致虚拟机暂停运行。

技术细节

在底层实现上，Harvester使用Longhorn作为存储后端。当发生上述问题时，我们观察到以下关键日志：

实例管理器日志显示快照文件访问失败：

Failed to get file /host/var/lib/harvester/defaultdisk/replicas/pvc-xxx/volume-snap-xxx.img size

引擎报告后端监控失败：

Backend tcp://x.x.x.x:xxxx monitoring failed, mark as ERR

最终导致I/O错误：

I/O error: no backend available

这些错误形成一个连锁反应：快照文件异常→副本状态异常→引擎监控失败→卷不可用→虚拟机暂停→升级流程卡住。

解决方案

针对这一问题，Harvester团队实施了以下修复措施：

优化快照管理：改进了快照替换机制，确保在文件替换过程中保持一致性，避免引用失效的快照文件。
增强错误处理：在卷迁移过程中增加更健壮的错误恢复机制，当检测到异常状态时能够自动回滚或清理残留资源。
改进升级流程：在升级前增加健康检查，确保没有处于异常迁移状态的卷存在。
日志增强：增加更详细的日志记录，帮助运维人员更快定位类似问题。

验证结果

修复方案经过多轮严格测试，包括：

4节点裸金属集群测试
3节点和4节点的QEMU/KVM虚拟化环境测试
模拟I/O错误场景下的升级测试
虚拟机迁移过程中的升级测试

所有测试场景均显示升级流程能够顺利完成，不再出现卡在Pre-drained状态的情况。

最佳实践建议

对于生产环境用户，建议采取以下预防措施：

在升级前检查所有虚拟机的运行状态，确保没有处于暂停状态的VM。
监控存储系统的健康状态，特别是副本同步情况。
考虑在维护窗口期进行升级，减少业务影响。
保持足够的存储空间，避免因空间不足导致的I/O错误。
定期检查Longhorn卷的状态，确保没有异常卷存在。

总结

Harvester升级过程中Pre-drained状态卡住的问题揭示了分布式存储系统在复杂场景下的挑战。通过深入分析问题根源并实施针对性的修复方案，团队不仅解决了当前问题，还增强了系统在异常情况下的健壮性。这一案例也展示了开源社区协作解决问题的典型流程，从问题报告到技术分析，再到方案实施和验证，最终为用户提供稳定可靠的解决方案。

harvester

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

登录后查看全文