Thanos v0.35.1 版本中的 Sidecar 启动顺序问题分析

2025-05-17 11:13:35作者：殷蕙予

Highly available Prometheus setup with long term storage capabilities. A CNCF Incubating project.

项目地址：https://gitcode.com/gh_mirrors/than/thanos

问题背景

在分布式监控系统 Thanos 的最新版本 v0.35.1 中，用户报告了一个关于 sidecar 组件启动顺序的重要问题。这个问题导致 thanos-sidecar 在启动时会异常地等待 Prometheus 启动完成，而实际上 sidecar 应该在 Prometheus 之前启动，因为它负责完成 Prometheus 配置文件的模板渲染工作。

技术细节

预期行为

在正常的工作流程中：

thanos-sidecar 首先启动
sidecar 使用 --reloader.config-file 和 --reloader.config-envsubst-file 参数处理 Prometheus 配置文件
完成配置文件的变量替换和环境变量注入
生成最终的 Prometheus 配置文件
Prometheus 启动并使用这个处理后的配置文件

问题表现

在 v0.35.1 版本中，这个流程被打破了：

thanos-sidecar 启动后会挂起
等待 Prometheus 启动完成
但由于 Prometheus 需要 sidecar 处理后的配置文件才能启动
导致系统陷入死锁状态

根本原因

通过分析变更记录，这个问题是由 PR #7323 引入的。该 PR 修改了 sidecar 的启动逻辑，意外地引入了对 Prometheus 的同步等待机制，破坏了原有的启动顺序依赖关系。

影响范围

这个问题影响了所有使用以下特性的部署：

依赖 thanos-sidecar 进行配置文件预处理
使用环境变量替换等高级配置功能
采用 v0.35.1 版本的 Thanos

临时解决方案

目前可行的解决方案是回退到 v0.35.0 版本，该版本不存在此问题。开发团队已经确认这是一个回归问题，并正在积极修复。

技术启示

这个案例展示了在分布式系统中组件启动顺序的重要性。当多个服务之间存在隐式依赖关系时，任何对启动流程的修改都需要特别谨慎。特别是在监控系统这类基础设施中，启动顺序问题可能导致整个系统无法正常工作。

修复进展

核心开发者已经确认了问题所在，并计划通过以下方式修复：

将等待机制改为异步方式
使用通道(channel)来通知各组件启动状态
确保 reloader 能够并发执行其任务

这个修复将恢复原有的启动顺序，同时保持系统的可靠性。

总结

Thanos v0.35.1 中的这个回归问题提醒我们，在复杂的分布式系统开发中，组件间的隐式依赖需要被显式地管理和测试。对于使用 Thanos 的用户，建议在升级前充分测试新版本，并关注已知问题的修复情况。对于已经受到影响的用户，回退到 v0.35.0 是目前最稳妥的解决方案。

Highly available Prometheus setup with long term storage capabilities. A CNCF Incubating project.

项目地址：https://gitcode.com/gh_mirrors/than/thanos

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理