Apache Pulsar中GetPartitionMetadataMultiBrokerTest测试失败分析

2025-05-17 03:30:20作者：沈韬淼Beryl

Apache Pulsar - distributed pub-sub messaging system

项目地址：https://gitcode.com/gh_mirrors/pulsar28/pulsar

问题背景

在Apache Pulsar的测试套件中，GetPartitionMetadataMultiBrokerTest.testCompatibilityDifferentBrokersForNonPersistentTopic测试用例出现了间歇性失败。这个测试主要验证在多broker环境下，非持久化主题的分区元数据获取功能在不同broker间的兼容性。

错误现象

测试失败时抛出了ConditionTimeoutException异常，具体表现为：

预期值：99999
实际值：100000
超时时间：10秒

这个断言失败发生在测试验证lookup请求许可数时，表明系统资源使用情况与预期不符。

技术分析

测试逻辑

该测试的核心逻辑是：

创建两个Pulsar broker实例
在这两个broker上创建非持久化分区主题
验证分区元数据获取功能
检查lookup请求许可数是否回到初始状态

问题根源

测试失败的根本原因在于：

测试开始时记录了初始的lookup请求许可数(lookupPermitsBefore)
测试过程中可能有其他系统操作(如__change_events主题的lookup)消耗了许可
测试结束时断言期望许可数完全恢复到初始值

解决方案建议

更健壮的断言方式应该是：

计算两个broker配置的最大并发lookup请求数之和
断言当前许可数等于这个总和
而不是依赖于测试开始时的瞬时值

这种改进可以避免因系统后台操作导致的测试干扰，提高测试的稳定性。

系统设计启示

这个测试案例反映了在分布式消息系统中几个重要的设计考量：

资源隔离：测试环境应该尽可能隔离，避免系统后台任务干扰测试结果
配置验证：测试应该基于明确的配置值进行断言，而不是动态获取的瞬时值
并发控制：对于像lookup这样的关键操作，需要有清晰的并发控制机制和监控
测试稳定性：在分布式环境下，测试断言需要考虑系统可能存在的后台活动

最佳实践建议

针对类似的测试场景，建议：

在测试前明确记录所有相关配置值
使用基于配置的断言而非瞬时状态断言
为系统后台任务预留足够的资源余量
考虑增加适当的等待时间和重试机制
在断言失败时提供更详细的诊断信息

通过这种方式可以构建更加健壮的测试套件，提高持续集成环境的可靠性。

Apache Pulsar - distributed pub-sub messaging system

项目地址：https://gitcode.com/gh_mirrors/pulsar28/pulsar

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统