Longhorn存储卷无法随工作负载迁移的问题分析与解决方案

2025-06-02 19:44:46作者：钟日瑜

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

问题背景

在使用Longhorn v1.7.2版本时，用户发现当工作负载被调度到其他节点时，存储卷无法随之迁移。具体表现为：当工作负载被缩容到0后，虽然可以在UI中强制分离卷并自动重新附加，但如果工作负载被调度到与卷附加节点不同的节点上时，启动会失败。

问题分析

经过深入分析，发现该问题涉及两个关键因素：

备份控制器无法找到快照导致卡在pending状态
备份控制器持续尝试备份操作，但由于无法找到对应的快照而不断重试。这些备份操作会持有volumeattachment资源，导致CSI无法附加卷。错误日志显示："failed to get the snapshot... snapshot not found"。
CSI卷附加票证与K8s资源不同步
当用户手动干预删除CSI VolumeAttachment资源并移除其finalizer时，会导致Longhorn内部的csi-*票证与Kubernetes资源不同步。具体表现为Longhorn VolumeAttachment CR中存在csi-*票证，但对应的Kubernetes VolumeAttachment.storage.k8s.io对象已不存在。

解决方案

临时解决方案

清理pending状态的备份资源
删除状态为pending且错误信息为"Failed to get the Snapshot..."的Backup资源：

kubectl get backup -n longhorn-system -o json | \
jq '.items[] | select(.status.state == "pending" and (.status.message | contains("Failed to get the Snapshot"))) | .metadata.name' | \
xargs -I {} kubectl delete backup {} -n longhorn-system

修复不同步的卷附加票证
对于已经出现不同步的情况，可执行以下步骤：
- 缩容工作负载
- 通过UI强制分离卷或直接编辑VolumeAttachment CR删除孤立的csi-*票证
- 重新扩容工作负载

长期解决方案

Longhorn团队已经意识到这个问题，并在后续版本中进行了改进：

增加了备份操作的最大重试次数限制
改进了快照创建失败时的处理逻辑
加强了CSI卷附加票证与Kubernetes资源的状态同步机制

最佳实践建议

避免手动删除CSI VolumeAttachment资源或移除其finalizer
定期检查并清理失败的备份任务
在升级Longhorn版本前，确保所有备份操作已完成
对于关键业务卷，考虑设置适当的备份策略和保留策略

总结

Longhorn存储卷无法随工作负载迁移的问题主要源于备份操作失败导致的资源锁定和手动干预造成的状态不一致。通过清理无效的备份资源和修复不同步的卷附加票证，可以有效解决该问题。同时，建议用户遵循最佳实践以避免类似问题的发生。

Longhorn团队正在持续改进系统的稳定性和可靠性，后续版本将提供更完善的错误处理和状态同步机制，为用户提供更优质的存储体验。

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

热门内容推荐

1 技术解构式学习：从0到1构建你的编程知识体系 2 构建自己的技术世界：build-your-own-x项目的实践探索指南 3 解锁编程技能的实践之旅：从零构建你的技术世界 4 技术实践探索：从零开始构建核心系统的实践指南 5 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%7天精通流放之路智能规划：新手必备的角色构筑神器指南

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

deepin linux kernel

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook