Longhorn CSI 卷在线扩容失败问题分析与解决

2025-06-02 00:38:40作者：丁柯新Fawn

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

问题背景

在 Longhorn 分布式存储系统的测试过程中，发现一个关键测试用例 test_csi_mount_volume_online_expansion 持续失败。该测试用例旨在验证 CSI 驱动对挂载卷在线扩容功能的支持情况。测试失败表现为在第二次扩容操作时无法完成 PVC 容量更新，导致断言失败。

问题现象

测试流程中会执行两次卷扩容操作：

第一次从 128MiB 扩容到 256MiB 成功
第二次从 256MiB 扩容到 512MiB 失败

失败时 PVC 状态显示：

spec.resources.requests.storage 更新为 5GiB
status.capacity.storage 仍保持为 4GiB
allocatedResourceStatuses 显示为 NodeResizePending

根因分析

通过深入日志分析发现，问题根源在于 CSI 驱动中的文件系统类型检测环节：

第一次扩容时，blkid 命令成功识别出文件系统类型为 ext4：
```
DEVNAME=/dev/longhorn/pvc-xxx
TYPE=ext4
```
第二次扩容时，同样的 blkid 命令返回空结果，导致 CSI 驱动无法确定文件系统类型，进而拒绝扩容操作。

进一步调查发现，这与 CSI 外部扩容器 (csi-resizer) 从 v1.12.0 升级到 v1.13.1 版本有关。新版本默认启用了 RecoverVolumeExpansionFailure 特性，该特性会静默重试失败的扩容操作，但缺乏足够的日志输出，使得问题难以诊断。

解决方案

经过团队讨论和验证，确定以下解决方案：

回退 csi-resizer 到 v1.12.0 版本
或者在新版本中显式禁用 RecoverVolumeExpansionFailure 特性

最终选择采用第一种方案，因为：

已验证在 v1.12.0 版本下测试通过
避免引入新特性的不确定性
提供更稳定的扩容行为

技术细节

在 CSI 驱动的 NodeExpandVolume 实现中，关键步骤如下：

接收来自 kubelet 的扩容请求
通过 blkid 检测设备文件系统类型
根据检测结果执行相应文件系统扩容命令
返回操作结果

问题出现在第二步，当 blkid 无法识别已挂载设备的文件系统时，整个扩容流程就会失败。这种情况在连续扩容操作中尤为明显。

影响范围

该问题影响以下 Longhorn 版本：

master-head
v1.8.x-head
v1.7.x-head

主要影响使用 CSI 驱动进行在线卷扩容的场景，特别是需要多次扩容的工作负载。

验证结果

解决方案验证通过：

测试用例 test_csi_mount_volume_online_expansion 成功执行
两次扩容操作均按预期完成
PVC 状态正确反映实际容量变化

总结

Longhorn 团队通过深入分析 CSI 驱动与 kubelet 的交互过程，准确定位了在线扩容失败的根本原因。通过版本回退策略快速解决了问题，确保了卷扩容功能的可靠性。这一案例也凸显了在升级关键组件时进行全面测试的重要性，特别是对默认启用的新特性需要格外关注。

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。