Longhorn存储引擎中卷挂载失败问题的分析与修复

2025-06-02 00:52:51作者：彭桢灵Jeremy

问题现象

在Longhorn v1.7.2版本中，用户报告了一个关于卷挂载失败的问题。具体表现为当尝试挂载Longhorn卷时，系统会报出"Input/output error"错误，导致无法成功创建文件系统。错误日志显示mkfs.ext4命令在格式化磁盘时遇到了I/O错误，无法完成文件系统的创建。

问题背景

这个问题主要出现在Kubernetes集群节点进行滚动更新时。用户使用Cluster API对节点进行增量替换的过程中，Longhorn卷会出现挂载失败的情况。值得注意的是，这个问题在从Longhorn v1.6.3升级到v1.7.2后才开始频繁出现。

技术分析

问题根源

经过深入分析，发现问题源于Longhorn引擎和副本之间的状态不一致导致的死锁情况。具体表现为：

引擎失去了与所有副本的连接，进入"no backend available"状态
系统尝试重建副本，但新副本使用了不同的端口号
引擎控制器无法清理旧的错误副本状态
卷控制器无法触发自动修复流程

版本差异

这个问题在v1.6.3版本中不会出现，主要原因是v1.7.2引入了一个端口分配逻辑的变更。在v1.6.3中，重建的副本会使用相同的端口号，这使得卷控制器能够正确识别副本故障并触发自动修复流程。而在v1.7.2中，重建的副本会获得新的端口号，导致系统无法正确判断副本状态。

解决方案

Longhorn团队提出了以下修复方案：

当引擎CR中所有副本在engine.Status.replicaModeMap中都处于ERR模式时，系统应该主动崩溃引擎并触发自动修复流程。这样可以打破原有的死锁状态，使系统能够恢复正常运行。

验证结果

修复后的版本通过了严格测试验证：

创建单副本卷并附加到副本所在节点
手动停止副本进程
验证系统能够自动修复卷状态
确认引擎不再显示错误的replicaModeMap
成功完成文件系统格式化操作

技术建议

对于遇到类似问题的用户，建议：

及时升级到包含此修复的Longhorn版本
在进行节点滚动更新时，密切监控Longhorn卷状态
考虑临时解决方案：通过缩减再扩展工作负载Pod来重新挂载卷

这个问题展示了分布式存储系统中状态一致性的重要性，也提醒我们在进行系统升级时需要全面评估变更可能带来的影响。Longhorn团队通过深入分析版本差异，准确地定位了问题根源，并提供了有效的解决方案。

longhorn

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

202

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理