Thanos接收器在ext4文件系统上运行时遇到的压缩问题分析

2025-05-17 18:41:59作者：鲍丁臣Ursa

问题背景

在使用Thanos接收器组件(v0.35.0-0.35.1)时，多个用户报告了类似的压缩失败问题。该问题表现为接收器在处理时间序列数据时，会随机出现"out-of-order series"错误，导致压缩操作失败。这种错误会引发内存持续增长，最终导致OOM(内存不足)错误，使容器进入崩溃循环。

问题现象

主要错误日志显示为：

compaction failed: add series: out-of-order series added with label set...

当出现此错误时，接收器会持续积累数据而无法完成压缩，表现为：

内存使用量持续上升
最终导致OOM错误
容器进入崩溃循环
唯一解决方案是删除WAL(预写日志)数据

根本原因分析

经过社区讨论和问题排查，发现该问题与Thanos的"out-of-order"(乱序)功能有关。该功能目前仍处于实验阶段，存在已知和未知的稳定性问题。具体表现为：

乱序数据验证机制存在缺陷，某些情况下允许无效数据通过初始验证
这些无效数据在后续压缩阶段会被检测到，导致整个压缩操作失败
压缩失败导致数据无法及时清理，内存持续增长

解决方案

目前推荐的解决方案是：

禁用out-of-order功能：这是最直接的解决方案，因为该功能尚未达到生产环境稳定性要求
清理已有数据：
- 对于接收器本地数据：删除WAL目录内容
- 对于已上传到对象存储的乱序块：需要手动删除这些块数据
监控措施：
- 设置head_series数量告警
- 监控内存使用情况

技术建议

对于生产环境部署，建议：

避免启用实验性功能，除非有明确的测试和回滚计划
设置合理的保留策略(如6小时)，让旧数据自动过期
确保有足够的内存缓冲来处理数据积压情况
密切监控压缩操作的状态和成功率

未来展望

Thanos社区正在持续改进乱序数据支持功能。待该功能达到稳定状态后，将能更好地处理乱序时间序列数据，同时避免此类压缩失败问题。建议用户关注后续版本更新，并在测试环境中验证新版本的功能稳定性后再考虑在生产环境中启用相关功能。

thanos

Highly available Prometheus setup with long term storage capabilities. A CNCF Incubating project.

项目地址：https://gitcode.com/gh_mirrors/than/thanos

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781