Thanos Query组件中的正则表达式匹配导致SIGSEGV问题分析

2025-05-17 05:33:22作者：魏侃纯Zoe

问题背景

在Thanos监控系统的实际部署中，用户报告了Query组件出现段错误(SIGSEGV)导致崩溃的问题。该问题发生在Thanos 0.36.1版本中，当处理包含标签正则表达式匹配的查询请求时，系统会触发无效内存地址访问的运行时错误。

从错误堆栈跟踪可以看出，崩溃发生在Prometheus的labels包中的FastRegexMatcher组件。具体来说，当执行MatchString方法时，系统尝试访问了一个nil指针，导致了段错误。

深入分析调用链可以发现，问题起源于ProxyStore组件的matchingStores方法。该方法在处理存储匹配逻辑时，调用了LabelSetsMatch函数来检查标签集是否匹配给定的匹配器(matchers)。在匹配过程中，系统尝试对标签值执行正则表达式匹配时发生了崩溃。

经过技术团队调查，发现该问题与以下因素相关：

当使用storeMatch参数进行查询时（如示例中的{__address__=~"shared-services-thanos-sidecar.internal.*"}），Query组件需要处理正则表达式匹配逻辑。
在特定情况下，FastRegexMatcher组件未能正确处理某些边界条件，导致在匹配过程中访问了未初始化的内存区域。
该问题在Thanos 0.35.1版本中不存在，但在0.36.1版本中显现，表明可能是某个依赖项更新或代码变更引入了此缺陷。

该问题主要影响以下场景：

技术团队已经确认以下解决方案：

对于生产环境中的Thanos部署，建议：

Thanos Query组件的正则表达式匹配问题是一个典型的边界条件处理缺陷，通过版本回退或等待官方修复可以解决。这提醒我们在使用复杂查询功能时需要特别注意系统稳定性，同时也展示了开源社区快速响应和修复问题的能力。

登录后查看全文