Harvester项目中VM备份恢复跨命名空间与集群问题的分析与解决

2025-06-14 06:23:11作者：卓炯娓

问题背景

在Harvester虚拟化管理平台中，用户发现当尝试将虚拟机(VM)备份恢复到不同命名空间或不同集群时，恢复操作会失败。这个问题源于Longhorn存储系统与Harvester之间的交互机制存在缺陷。

问题的核心在于VolumeSnapshotContent资源中的snapshotHandle字段格式不正确。在错误情况下，该字段格式为bs://<PVC名称>/<备份名称>，而正确的格式应为bak://<备份卷名称>/<备份名称>。

这种格式错误会导致以下问题场景：

Harvester团队提出了一个全面的修复方案，包含以下关键点：

新建VolumeSnapshotContent的处理：
- Harvester控制器将确保新创建的VolumeSnapshotContent使用正确的snapshotHandle格式
- 格式规范化为bak://<备份卷名称>/<备份名称>
现有VolumeSnapshotContent的修复：
- 当VM备份恢复请求触发时，Harvester会检查snapshotHandle格式
- 如果发现错误格式(bs://<PVC名称>/<备份名称>)，系统将执行以下操作：
  - 从Longhorn的备份CR中获取正确的backupvolume名称
  - 创建新的VolumeSnapshot和VolumeSnapshotContent资源
  - 将原始VMBackup CR与新创建的VolumeSnapshot资源关联
备份恢复的特殊处理：
- 删除错误格式的VolumeSnapshotContent和VolumeSnapshot
- 重新创建这些资源并使用正确的snapshotHandle格式
- 确保恢复操作能够正常进行

团队通过详细的测试验证了解决方案的有效性：

在实现过程中，团队发现了一些关键的技术要点：

当VolumeSnapshotContent的snapshotHandle格式错误时，删除VolumeSnapshot不会删除Longhorn中的Backup CR，因为Longhorn无法找到相关的BackupVolume，从而跳过了删除步骤。
备份重新发现功能依赖于refreshIntervalInSeconds参数的非零设置。如果该参数为零，Harvester控制器不会主动扫描远程备份目标上的现有VM备份。
在灾难恢复场景中，即使备份数据存在于备份目标上，如果本地VolumeSnapshotContent副本丢失，Harvester可能无法识别这些备份。