Thanos Receive组件内存泄漏问题分析与解决方案

2025-05-17 18:36:29作者：劳婵绚Shirley

问题背景

在Thanos 0.36.1版本中，Receive组件在router/ingestor模式下运行时出现了严重的内存泄漏问题。具体表现为内存使用量每2小时左右就会达到峰值，最终导致进程因OOM（内存不足）而被终止。这个问题在升级到0.37.1版本后依然存在。

通过监控数据可以观察到以下关键现象：

经过深入调查，发现问题的根本原因与Exemplars（样本）配置有关。在Receive组件的配置中，设置了过高的tsdb.max-exemplars值（100万），这导致了内存的持续增长。

关键点在于：

解决这个问题的方案很简单：

实施这个解决方案后，内存使用量立即稳定在1.6GB左右，问题得到彻底解决。

Exemplars是Prometheus/Thanos中的一种特殊数据，用于存储与时间序列相关联的跟踪信息。与常规指标数据不同：

这个案例展示了配置参数对系统稳定性的重要影响。通过合理配置Exemplars数量限制，可以有效避免内存泄漏问题。这也提醒我们，在采用高级功能时需要充分理解其实现机制和资源消耗特性。

对于Thanos Receive组件的部署，建议在生产环境中严格监控内存使用情况，并根据实际负载调整相关参数，以确保系统的稳定运行。

登录后查看全文