Longhorn备份卷删除后的状态同步问题分析

2025-06-02 23:31:21作者：龚格成

问题背景

在Longhorn分布式存储系统的测试过程中，发现了一个关于备份卷删除后状态同步的有趣现象。测试人员在执行测试用例的清理阶段时，虽然已经调用了删除备份卷的API并等待删除完成，但在后续检查中仍然能够查询到这些备份卷的存在。

测试框架中的清理函数会执行以下操作：

然而在最后一步验证时，系统有时仍会返回非空的备份卷列表，导致测试断言失败。这表明备份卷的删除状态在系统中存在某种延迟或不一致性。

经过深入分析，发现这个问题可能涉及以下几个技术层面：

API调用差异：系统中有两个相似的API端点用于列出备份卷 - list_backupVolume和list_backup_volume。虽然它们的功能应该相同，但可能存在实现上的细微差别。
缓存机制：不同的API端点可能使用了不同的缓存策略，导致数据同步存在延迟。特别是list_backup_volume可能缓存了旧数据，而没有及时刷新。
后台处理延迟：备份卷的删除操作可能涉及后台的垃圾回收等异步处理流程，这些操作需要时间完成，导致状态同步存在时间差。
并发问题：在测试环境中，可能存在其他进程或线程在删除操作后重新创建了备份卷，导致验证时发现意外的备份卷存在。

针对这个问题，开发团队采取了以下改进措施：

统一API调用：确保在等待删除和最终验证阶段使用相同的API端点(list_backupVolume)来获取备份卷列表，消除因API实现差异导致的问题。
增加重试机制：在验证备份卷是否被删除时，实现更健壮的重试逻辑，考虑后台处理的延迟。
隔离测试环境：确保测试用例之间有足够的隔离，防止一个测试用例的操作影响另一个测试用例的环境。