Longhorn项目中的CSI卷迁移阻塞问题分析与解决

2025-06-02 06:51:41作者：何将鹤

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

问题背景

在Longhorn分布式存储系统的使用过程中，我们发现了一个影响生产环境稳定性的关键问题：当系统正在进行长时间备份操作时，工作负载Pod无法正常迁移到新节点。这个问题主要出现在Longhorn v1.7.0及以上版本中，会导致Kubernetes集群中的工作负载无法按预期进行节点迁移。

问题现象

具体表现为：当一个工作负载Pod需要迁移到新节点时（例如由于节点维护或自动扩缩容），如果此时Longhorn正在执行长时间运行的备份操作（可能持续数小时），系统会阻止CSI卷从原节点解绑。这是因为Longhorn的ControllerUnpublishVolume函数会等待备份操作完成，在此期间持续返回错误，导致Kubernetes无法移除原节点上的CSI卷附加(Volume Attachment)对象。

最严重的情况下，如果备份操作因某种原因永远无法完成（如相关快照CR丢失或存在大量错误备份），Longhorn卷将永久不可用，相关的工作负载Pod也将无法启动。

技术分析

这个问题源于Longhorn v1.7.0引入的一个变更，该变更使得ControllerUnpublishVolume操作会等待所有正在进行的卷操作（如备份）完成。从设计角度看，这原本是为了保证数据一致性，但在实际生产环境中却带来了可用性问题。

在Kubernetes的卷管理流程中，当Pod需要迁移时，系统会先尝试在原节点上解绑卷(ControllerUnpublishVolume)，然后在新节点上重新绑定。如果解绑操作被长时间阻塞，整个迁移流程就会停滞。

解决方案

经过深入分析，Longhorn团队决定修改这一行为，使系统能够更智能地处理这种情况：

允许Kubernetes正常完成CSI卷的解绑操作，即使有长时间运行的操作正在进行
当卷需要附加到新节点时，系统会中断正在进行的长时间操作（如备份）
确保工作负载Pod能够优先获得卷的使用权，保障业务连续性

这种设计变更更好地平衡了数据一致性和系统可用性，符合生产环境对高可用的需求。

测试验证

为确保修复效果，测试团队设计了两种主要测试场景：

常规迁移测试：模拟工作负载Pod在不同节点间的正常迁移过程，验证在各种操作并发情况下迁移是否能够顺利完成
长时间备份测试：特别针对备份操作场景，验证当备份耗时较长时，系统是否能够正确中断备份并允许卷迁移

测试结果表明，修复后的版本能够正确处理这些场景，工作负载Pod可以按预期迁移到新节点，而不会因为后台操作被长时间阻塞。

总结

这个问题的解决体现了分布式存储系统设计中需要考虑的重要权衡：在保证数据一致性的同时，必须确保系统的高可用性。Longhorn团队通过这次修复，使系统在面对长时间运行操作时能够更灵活地响应上层编排系统的需求，这对于生产环境中的关键业务负载尤为重要。

对于使用Longhorn的用户，建议关注这一修复，特别是在需要频繁迁移工作负载或执行长时间备份操作的场景中。该修复已包含在后续版本中，用户可以通过升级获得更好的使用体验。

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

MindQuantum is a general software library supporting the development of applications for quantum computation.

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！