Longhorn项目节点宕机导致存储卷无法自动恢复的问题分析

2025-06-02 10:24:50作者：范垣楠Rhoda

问题背景

在Longhorn v1.6.3版本中，存在一个严重的回归性问题：当运行Share Manager Pod的节点发生宕机时，会导致RWX(多节点读写)存储卷无法自动迁移到健康节点上。这个问题不仅影响RWX卷，同样也会影响RWO(单节点读写)卷，使得所有位于宕机节点上的存储卷都无法继续使用。

问题现象

当节点发生宕机时，管理员会观察到以下异常现象：

Share Manager自定义资源(CR)长时间处于stopping/error状态
存储卷状态卡在detached状态或者仍然显示附着在已宕机的节点上
尝试在新节点上启动使用该存储卷的Pod时，会收到"volume hasn't been attached yet"的错误
系统无法自动将存储卷重新附着到健康节点上

技术原理分析

Longhorn的高可用机制依赖于对Kubernetes节点状态的监控。当节点不可用时，系统需要检测到这一状态变化并触发恢复流程。具体来说：

Longhorn会监控节点的Ready状态条件
当节点不可达时，Kubernetes会将该节点的Ready条件设置为False，并设置原因为KubernetesNodeNotReady
Longhorn检测到这一变化后，会启动恢复流程，包括：
- 将资源所有权转移到健康节点
- 强制删除Share Manager Pod
- 将宕机节点上的Instance Manager CR状态设置为unknown
- 停止宕机节点上的Engine和Replica实例

问题根源

在v1.6.3版本中，由于代码变更引入了一个逻辑缺陷：

新增了对ManagerPodDown条件的处理
这个条件会覆盖原有的KubernetesNodeNotReady条件
导致系统无法正确识别节点宕机状态
进而无法触发自动恢复流程

解决方案

该问题已在后续版本中修复，主要修改包括：

调整节点状态条件判断逻辑
确保ManagerPodDown条件不会覆盖KubernetesNodeNotReady条件
恢复原有的节点宕机检测机制

影响范围

该问题影响所有使用Longhorn v1.6.3版本的环境，特别是：

使用RWX存储卷的应用
使用RWO存储卷的应用
任何节点可能发生意外宕机的生产环境

临时解决方案

对于无法立即升级的用户，可以采取以下临时措施：

尝试恢复宕机节点
手动替换longhorn-manager镜像为特定版本

最佳实践建议

为避免类似问题，建议用户：

及时升级到修复版本
在生产环境部署前充分测试新版本
配置适当的监控告警机制
确保存储卷有足够多的副本分布在不同的节点上

总结

节点高可用是分布式存储系统的核心能力之一。Longhorn通过持续改进其状态检测和恢复机制，确保了存储服务的高可靠性。用户应当关注版本更新说明，及时应用重要修复，以保障业务连续性。

longhorn

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

Longhorn项目节点宕机导致存储卷无法自动恢复的问题分析

问题背景

问题现象

技术原理分析

问题根源

解决方案

影响范围

临时解决方案

最佳实践建议

总结

热门内容推荐

最新内容推荐

项目优选

Longhorn项目节点宕机导致存储卷无法自动恢复的问题分析

问题背景

问题现象

技术原理分析

问题根源

解决方案

影响范围

临时解决方案

最佳实践建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选