首页
/ Longhorn系统备份过程中BackingImage备份卡死问题分析

Longhorn系统备份过程中BackingImage备份卡死问题分析

2025-06-01 08:38:42作者:董宙帆

问题背景

在Longhorn分布式存储系统的测试过程中,发现一个罕见但严重的问题:当执行系统备份操作时,备份过程可能会在"CreatingBackingImageBackups"阶段无限期卡住。这个问题在master-head版本中被发现,会影响系统备份功能的正常使用。

问题现象

当用户创建系统备份时,备份状态会停留在"CreatingBackingImageBackups"阶段无法继续。通过检查系统备份资源状态,可以看到备份过程未能完成,而相关的BackupBackingImage资源则处于"InProgress"状态但没有任何进度更新。

问题根因分析

经过深入排查,发现这是一个竞态条件导致的问题,具体流程如下:

  1. 系统首先创建了一个BackupBackingImage资源(bi-v1-3677a8e8)并开始备份过程
  2. 备份目标控制器(BackupTargetController)在同步过程中,错误地认为该CR需要被删除,因为其内容尚未出现在备份存储中
  3. 系统随后重新创建了另一个BackupBackingImage资源(bi-v1-ac43d48d)
  4. 由于第一次备份实际上已经成功上传了内容,第二次备份操作检测到内容已存在,因此跳过了备份过程
  5. 这导致CR的进度停留在0%,系统备份也因此卡在"CreatingBackingImageBackups"阶段

技术细节

问题的核心在于备份目标控制器的同步逻辑存在缺陷。当控制器检查备份存储中的内容时,如果内容尚未完全同步,可能会错误地认为备份不存在,从而触发删除和重建操作。而重建后的备份操作由于检测到内容已存在,又不会实际执行备份,导致状态无法更新。

解决方案

修复方案主要包含以下改进:

  1. 在备份目标控制器中增加更严格的检查逻辑,避免在内容同步完成前误判备份状态
  2. 优化备份过程中的状态更新机制,确保即使跳过实际备份操作也能正确更新资源状态
  3. 增强错误处理逻辑,防止类似竞态条件导致的操作中断

验证结果

修复后的版本经过多次测试验证,系统备份功能恢复正常。测试人员在多种场景下执行了5次连续测试,均未再出现备份卡死的情况,验证了修复的有效性。

总结

这个案例展示了分布式存储系统中常见的竞态条件问题,特别是在涉及多个组件协作和外部存储状态同步的场景下。Longhorn团队通过深入分析问题根源,不仅解决了当前的问题,还增强了系统的健壮性,为未来类似问题的预防提供了参考。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
24
7
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.03 K
477
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
375
3.21 K
pytorchpytorch
Ascend Extension for PyTorch
Python
169
190
flutter_flutterflutter_flutter
暂无简介
Dart
615
140
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
62
19
cangjie_compilercangjie_compiler
仓颉编译器源码及 cjdb 调试工具。
C++
126
855
cangjie_testcangjie_test
仓颉编程语言测试用例。
Cangjie
36
852
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
647
258