Storj卫星节点账户删除测试的稳定性问题分析

2025-06-26 16:27:45作者：柏廷章Berta

Ongoing Storj v3 development. Decentralized cloud object storage that is affordable, easy to use, private, and secure.

项目地址：https://gitcode.com/gh_mirrors/st/storj

问题背景

在Storj分布式存储系统的卫星节点测试中，发现了一个关于账户删除功能的稳定性问题。测试用例TestDeleteAccount在Spanner数据库环境下表现出不稳定的行为，导致测试间歇性失败。

问题现象

测试失败时的主要表现为：

测试期望获取一个非nil的响应值，但实际得到了nil
日志显示"RollupStats is empty"或"Rollup found no new tallies"等会计统计相关的信息
时间戳显示在2025年1月1日01:00:00插入了出口流量(egress)记录，但随后查询该时间范围内的总流量却返回0

技术分析

这个问题涉及到Storj卫星节点的几个核心组件交互：

账户删除流程：测试模拟用户删除账户的操作，这需要清理与该账户相关的所有资源，包括项目、API密钥和用量统计等。
会计统计系统：系统会定期汇总(rollup)存储和带宽使用数据，测试中出现的"RollupStats is empty"表明统计系统没有找到新的数据。
时间窗口问题：从调试日志可以看出，测试在特定时间点(2025-01-01 01:00:00)插入出口流量记录，但在查询包含该时间点的时间范围(2025-01-01 00:00:00至2025-01-31 00:00:00)时却返回0，这表明可能存在时间窗口计算或数据可见性的问题。

根本原因

经过深入分析，问题的根本原因可能是：

时间同步问题：测试环境中时间处理可能存在不一致，导致插入记录和查询记录的时间窗口不完全匹配。
数据库事务隔离级别：Spanner数据库的事务隔离特性可能导致新插入的数据不能立即被后续查询看到。
统计延迟：会计统计系统可能存在处理延迟，新插入的流量记录未能及时反映在统计结果中。

解决方案

针对这个问题，开发团队提出了以下解决方案：

调整时间窗口：确保查询的时间范围完全包含插入记录的时间点，并考虑可能的时钟偏差。
增加数据可见性检查：在断言前添加适当的等待或重试逻辑，确保数据已持久化并可见。
改进测试断言：使测试断言更加健壮，能够处理短暂的统计延迟情况。

经验总结

这个案例展示了分布式系统测试中常见的时间相关问题和数据一致性挑战。在类似场景下，开发者应当：

充分考虑分布式系统各组件间的时序关系
为测试设计合理的等待和重试机制
添加详细的调试日志以帮助诊断间歇性故障
理解底层数据库的事务特性及其对测试的影响

通过解决这个问题，Storj团队不仅修复了一个具体的测试缺陷，也积累了处理类似分布式系统测试问题的宝贵经验。

Ongoing Storj v3 development. Decentralized cloud object storage that is affordable, easy to use, private, and secure.

项目地址：https://gitcode.com/gh_mirrors/st/storj

登录后查看全文

项目优选

收起

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

昇腾LLM分布式训练框架

flutter_flutter

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

ohos_react_native

React Native鸿蒙化仓库