首页
/ Longhorn系统备份过程中BackingImage备份卡死问题分析

Longhorn系统备份过程中BackingImage备份卡死问题分析

2025-06-01 08:38:42作者:董宙帆

问题背景

在Longhorn分布式存储系统的测试过程中,发现一个罕见但严重的问题:当执行系统备份操作时,备份过程可能会在"CreatingBackingImageBackups"阶段无限期卡住。这个问题在master-head版本中被发现,会影响系统备份功能的正常使用。

问题现象

当用户创建系统备份时,备份状态会停留在"CreatingBackingImageBackups"阶段无法继续。通过检查系统备份资源状态,可以看到备份过程未能完成,而相关的BackupBackingImage资源则处于"InProgress"状态但没有任何进度更新。

问题根因分析

经过深入排查,发现这是一个竞态条件导致的问题,具体流程如下:

  1. 系统首先创建了一个BackupBackingImage资源(bi-v1-3677a8e8)并开始备份过程
  2. 备份目标控制器(BackupTargetController)在同步过程中,错误地认为该CR需要被删除,因为其内容尚未出现在备份存储中
  3. 系统随后重新创建了另一个BackupBackingImage资源(bi-v1-ac43d48d)
  4. 由于第一次备份实际上已经成功上传了内容,第二次备份操作检测到内容已存在,因此跳过了备份过程
  5. 这导致CR的进度停留在0%,系统备份也因此卡在"CreatingBackingImageBackups"阶段

技术细节

问题的核心在于备份目标控制器的同步逻辑存在缺陷。当控制器检查备份存储中的内容时,如果内容尚未完全同步,可能会错误地认为备份不存在,从而触发删除和重建操作。而重建后的备份操作由于检测到内容已存在,又不会实际执行备份,导致状态无法更新。

解决方案

修复方案主要包含以下改进:

  1. 在备份目标控制器中增加更严格的检查逻辑,避免在内容同步完成前误判备份状态
  2. 优化备份过程中的状态更新机制,确保即使跳过实际备份操作也能正确更新资源状态
  3. 增强错误处理逻辑,防止类似竞态条件导致的操作中断

验证结果

修复后的版本经过多次测试验证,系统备份功能恢复正常。测试人员在多种场景下执行了5次连续测试,均未再出现备份卡死的情况,验证了修复的有效性。

总结

这个案例展示了分布式存储系统中常见的竞态条件问题,特别是在涉及多个组件协作和外部存储状态同步的场景下。Longhorn团队通过深入分析问题根源,不仅解决了当前的问题,还增强了系统的健壮性,为未来类似问题的预防提供了参考。

登录后查看全文
热门项目推荐
相关项目推荐