Longhorn项目中v2后备镜像磁盘下载卡顿问题分析

2025-06-02 13:27:07作者：傅爽业Veleda

问题现象

在Longhorn v1.8.0-rc1版本中，用户报告了一个关于v2数据引擎后备镜像(backing image)下载的问题。具体表现为在从备份恢复后备镜像到v2数据引擎时，某些磁盘的下载过程会随机卡在"File processing is not started"状态，无法完成下载。

Longhorn的后备镜像功能允许用户为多个卷共享相同的基准镜像数据，这在Kubernetes环境中创建多个基于相同基础镜像的持久卷时特别有用。v2数据引擎是Longhorn的新一代存储引擎，采用SPDK技术栈实现高性能存储。

经过技术团队深入排查，发现问题源于以下技术细节：

磁盘上存在同名但不同UUID的后备镜像快照：当系统尝试创建新的后备镜像时，发现目标磁盘上已存在同名但UUID不匹配的镜像快照，导致创建过程受阻。
可能的触发场景：
- 用户创建了一个使用后备镜像A的卷
- 删除其中一个卷副本触发重建，导致磁盘上遗留使用后备镜像A的孤立副本逻辑卷
- 删除后备镜像A后，这些孤立副本可能未被完全清理
- 当创建同名的新后备镜像A'时，系统检测到冲突
状态同步延迟：系统存在约30秒的状态同步时间窗口，在此期间用户界面可能无法及时反映实际进度。

技术团队提出了以下解决方案：

代码修复：在创建后备镜像时主动检查并删除UUID不匹配的现有镜像快照，防止冲突发生。相关修复已提交到longhorn-spdk-engine仓库。
临时解决方案：对于遇到此问题的用户，可以手动进入实例管理器容器，执行SPDK命令删除冲突的逻辑卷：
```
go-spdk-helper lvol delete ${BackingImageLvol}
```