Longhorn项目中节点驱逐时卷状态卡在已附加状态的故障分析
2025-06-02 23:44:46作者:平淮齐Percy
问题现象
在Longhorn分布式存储系统中,当用户对集群节点执行驱逐操作时,发现一个已经被分离(detached)的存储卷却意外地卡在了已附加(attached)状态。这种异常状态会导致该存储卷无法正常返回到分离状态,影响系统的正常运行。
环境背景
该问题出现在以下环境中:
- Longhorn版本:v1.4.3
- 运行平台:Harvester v1.2.1
- 集群配置:三节点集群
- 存储卷配置:具有三个副本的卷
问题复现步骤
- 首先创建一个三副本的存储卷
- 将该卷附加到一个节点上,然后执行分离操作
- 选择其中一个节点(例如node2),禁用其节点调度功能并立即启用驱逐请求
- 观察发现存储卷状态异常:
- 保持附加状态
- 在v1.6.3版本中,会出现1个停止的副本和3个运行的副本
- 在v1.7.2版本中,3个副本都保持运行状态
根本原因分析
经过深入排查,发现问题根源在于Longhorn的卷驱逐控制器逻辑。当节点被驱逐时,该控制器会更新已分离卷的附加凭证(attachment ticket),但由于缺乏可用的候选节点,导致卷状态卡在已附加状态。
具体表现为:
- 卷分离操作被正常触发
- 但紧接着卷驱逐控制器又为同一卷发出了附加请求
- 系统无法找到合适的节点来承载该卷
- 最终导致卷状态异常
解决方案
针对该问题,开发团队提出了以下修复方案:
- 在尝试附加卷之前,先检查是否存在有效的副本候选节点
- 如果没有可用的候选节点,则避免执行卷附加操作
- 确保卷驱逐控制器不会对已分离的卷进行不必要的状态更新
临时解决方案
对于使用v1.4.3版本的用户,可以采取以下临时解决方案:
- 启用"副本节点级软反亲和性"(Replica Node Level Soft Anti-Affinity)设置
- 这样Longhorn会自动分离处于异常状态的卷
技术影响范围
该问题主要影响以下系统组件:
- 卷副本调度机制
- 节点驱逐处理流程
- 卷状态管理模块
版本兼容性说明
该问题在多个Longhorn版本中均存在:
- v1.4.3
- v1.6.3
- v1.7.2
开发团队已在后续版本中修复了该问题,建议受影响的用户升级到包含修复的版本。
最佳实践建议
为避免类似问题,建议用户:
- 在执行节点驱逐前,先将卷的副本数减少到2个
- 定期检查并更新Longhorn版本
- 在非生产环境中充分测试节点驱逐场景
- 监控卷状态变化,及时发现异常情况
通过以上分析和解决方案,Longhorn项目团队有效解决了节点驱逐时卷状态异常的问题,提升了系统的稳定性和可靠性。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0215
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0138
uni-appA cross-platform framework using Vue.jsJavaScript08
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
项目优选
收起
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
471
465
暂无描述
Dockerfile
779
5.08 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
876
2.03 K
Ascend Extension for PyTorch
Python
758
968
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
697
1.4 K
昇腾LLM分布式训练框架
Python
185
231
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.1 K
1.14 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
271
JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。
Python
2.25 K
677