Grafana Tempo中SearchTagValuesV2接口的测试稳定性问题分析

2025-06-13 17:49:50作者：戚魁泉Nursing

问题背景

在Grafana Tempo分布式追踪系统的开发过程中，测试团队发现TestSearchTagValuesV2测试用例存在不稳定的情况，特别是在second_batch_with_incomplete_query_-_name子测试中表现尤为明显。这个问题与系统内部的块压缩(block compaction)机制密切相关，可能导致查询结果出现预期之外的标签值。

问题现象

测试用例的主要目的是验证通过不完整查询条件获取标签值的功能。在正常情况下，当查询条件为{ name="baz" && span.x = }时，预期只返回qux这个标签值。但在某些情况下，测试会返回额外的bar标签值，导致断言失败。

通过分析测试日志，我们发现：

成功的测试运行中，completeBlocks列表长度为0，查询仅针对headBlock和completingBlocks执行
失败的测试运行中，completeBlocks列表长度为1，查询会额外针对已完成的块执行searchBlockWithCache操作

根本原因分析

深入分析代码后发现，问题的根源在于块压缩时机与查询执行时机的竞态条件：

数据写入流程：测试用例首先会写入包含特定标签的追踪数据
块压缩机制：Tempo会定期将内存中的数据压缩为持久化块
查询执行路径：当查询执行时，系统会依次检查headBlock、completingBlocks和completeBlocks

关键问题出现在searchBlockWithCache方法的实现上。当查询命中completeBlocks时，该方法似乎没有正确应用查询过滤器，导致返回了不符合条件的额外标签值。

技术细节

在Tempo的架构中，数据存储分为几个层次：

headBlock：当前活跃的内存块，直接接收新写入的数据
completingBlocks：正在完成压缩过程的块
completeBlocks：已完成压缩的持久化块

searchBlockWithCache方法在处理completeBlocks时，可能由于缓存机制或查询解析的问题，未能正确应用name="baz"的过滤条件，从而返回了所有span.x标签的值，包括不符合条件的bar。

解决方案

针对这个问题，开发团队可以考虑以下几个改进方向：

查询过滤一致性：确保所有查询路径（包括缓存路径）都应用相同的过滤逻辑
测试稳定性增强：在测试中显式控制块压缩时机，消除竞态条件
缓存机制改进：重新设计缓存策略，确保缓存结果与原始查询条件严格匹配

经验总结

这个案例展示了分布式系统中常见的时序相关问题，特别是在涉及数据压缩和查询优化的场景下。对于类似系统，开发团队应当：

特别注意状态转换期间的查询一致性
为关键操作添加明确的时序控制机制
设计测试用例时考虑各种可能的执行路径

通过解决这个问题，不仅提高了测试的稳定性，也增强了系统在真实生产环境中的可靠性，确保了查询结果的一致性和准确性。

tempo

Grafana Tempo is a high volume, minimal dependency distributed tracing backend.

项目地址：https://gitcode.com/GitHub_Trending/tempo1/tempo

登录后查看全文