Longhorn项目中节点驱逐时卷状态卡在已附加状态的故障分析

2025-06-02 23:44:46作者：平淮齐Percy

问题现象

在Longhorn分布式存储系统中，当用户对集群节点执行驱逐操作时，发现一个已经被分离(detached)的存储卷却意外地卡在了已附加(attached)状态。这种异常状态会导致该存储卷无法正常返回到分离状态，影响系统的正常运行。

环境背景

该问题出现在以下环境中：

Longhorn版本：v1.4.3
运行平台：Harvester v1.2.1
集群配置：三节点集群
存储卷配置：具有三个副本的卷

问题复现步骤

首先创建一个三副本的存储卷
将该卷附加到一个节点上，然后执行分离操作
选择其中一个节点(例如node2)，禁用其节点调度功能并立即启用驱逐请求
观察发现存储卷状态异常：
- 保持附加状态
- 在v1.6.3版本中，会出现1个停止的副本和3个运行的副本
- 在v1.7.2版本中，3个副本都保持运行状态

根本原因分析

经过深入排查，发现问题根源在于Longhorn的卷驱逐控制器逻辑。当节点被驱逐时，该控制器会更新已分离卷的附加凭证(attachment ticket)，但由于缺乏可用的候选节点，导致卷状态卡在已附加状态。

具体表现为：

卷分离操作被正常触发
但紧接着卷驱逐控制器又为同一卷发出了附加请求
系统无法找到合适的节点来承载该卷
最终导致卷状态异常

解决方案

针对该问题，开发团队提出了以下修复方案：

在尝试附加卷之前，先检查是否存在有效的副本候选节点
如果没有可用的候选节点，则避免执行卷附加操作
确保卷驱逐控制器不会对已分离的卷进行不必要的状态更新

临时解决方案

对于使用v1.4.3版本的用户，可以采取以下临时解决方案：

启用"副本节点级软反亲和性"(Replica Node Level Soft Anti-Affinity)设置
这样Longhorn会自动分离处于异常状态的卷

技术影响范围

该问题主要影响以下系统组件：

卷副本调度机制
节点驱逐处理流程
卷状态管理模块

版本兼容性说明

该问题在多个Longhorn版本中均存在：

v1.4.3
v1.6.3
v1.7.2

开发团队已在后续版本中修复了该问题，建议受影响的用户升级到包含修复的版本。

最佳实践建议

为避免类似问题，建议用户：

在执行节点驱逐前，先将卷的副本数减少到2个
定期检查并更新Longhorn版本
在非生产环境中充分测试节点驱逐场景
监控卷状态变化，及时发现异常情况

通过以上分析和解决方案，Longhorn项目团队有效解决了节点驱逐时卷状态异常的问题，提升了系统的稳定性和可靠性。

longhorn

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理