Longhorn项目中V2数据引擎实例管理器启动失败问题分析

2025-06-01 07:07:58作者：廉皓灿Ida

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

问题背景

在Longhorn分布式存储系统的测试过程中，发现了一个与V2数据引擎相关的重要问题。当执行某些特定的负面测试用例后，环境中V2实例管理器(Instance Manager)无法正常启动，导致块磁盘状态卡在"Unschedulable"状态，影响了后续测试的正常进行。

问题现象

测试人员在执行自动化测试时发现以下异常现象：

第一个测试用例成功设置V2环境并执行通过
测试环境清理和重置后
第二个测试用例尝试再次设置V2环境时失败
部分V2实例管理器未能正常启动
块磁盘状态显示为"Unschedulable"

通过检查系统状态，发现存在以下具体问题表现：

Kubernetes集群中有3个V2实例管理器CRD资源，但实际只有2个对应的Pod在运行
其中一个节点(ip-10-0-2-5)上存在孤立的(orphan)数据
日志中显示大量连接超时错误，无法连接到特定的实例管理器服务

技术分析

经过深入分析，发现问题根源在于实例管理器的删除流程被阻塞。具体原因如下：

实例管理器删除操作被阻塞，因为存在一个实例孤儿的owner reference
孤儿控制器(orphan controller)无法完成该孤儿的终结(finalize)操作
终结失败的原因是孤儿控制器无法连接到已被删除的实例管理器Pod

这种状态形成了一个死锁：

实例管理器因孤儿引用而无法完全删除
孤儿控制器因无法连接到实例管理器而无法清理孤儿
系统状态因此无法恢复正常

解决方案

开发团队提出了修复方案，主要解决思路包括：

改进孤儿处理逻辑，确保在实例管理器不可用时仍能完成清理
优化实例管理器的生命周期管理，防止类似死锁情况发生
增强错误处理机制，提供更清晰的错误信息和恢复路径

修复方案已经通过代码审查并合并到主分支。测试验证表明：

修复后的版本能够正确处理这种边缘情况
测试用例能够连续执行而不出现环境设置失败
系统状态能够正常恢复，不影响后续操作

技术影响

这个问题揭示了分布式存储系统中资源生命周期管理的重要性。在类似Longhorn这样的复杂系统中，各种资源之间存在复杂的依赖关系，必须谨慎处理：

资源删除顺序至关重要
必须考虑网络不可靠情况下的处理
需要完善的超时和重试机制
状态恢复能力是系统健壮性的关键

最佳实践

基于此问题的经验，建议在类似系统中：

实施严格的资源依赖管理
设计完善的清理和恢复机制
增加对异常状态的监控和告警
定期进行故障注入测试，验证系统恢复能力

这个问题及其解决方案为分布式存储系统的设计提供了有价值的实践经验，特别是在处理资源生命周期和状态恢复方面。

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库