Thanos Storegateway 与 S3 Glacier 存储兼容性问题分析
2025-05-17 00:02:24作者:裴锟轩Denise
问题背景
在分布式监控系统中,Thanos 作为 Prometheus 的长期存储解决方案,其 Storegateway 组件负责从对象存储中读取历史监控数据。某用户在使用 AWS S3 作为后端存储时,配置了生命周期策略将数据自动转存至 Glacier 存储类后,Storegateway 组件出现了无法访问 meta.json 文件的故障。
技术原理
存储架构设计
Thanos 的存储网关通过以下机制与对象存储交互:
- 元数据文件(meta.json):每个数据块(block)的元信息文件,包含时间范围、压缩信息等关键元数据
- 删除标记(deletion-mark.json):标记待删除数据块的特殊文件
- 数据块同步机制:启动时扫描存储桶并加载所有可用数据块的元数据
Glacier 存储限制
AWS S3 Glacier 作为归档存储服务,具有以下关键特性:
- 数据检索需要显式发起恢复操作
- 标准 API 调用对 Glacier 对象有限制
- 恢复操作存在延迟(分钟到小时级)
问题现象
用户环境出现以下典型症状:
- Storegateway 容器持续崩溃重启
- 日志显示大量 "The operation is not valid for the object's storage class" 错误
- 仅能查询最近10天的数据(Prometheus本地保留周期)
- 数据恢复后出现 deletion-mark.json 访问问题
根本原因
该问题由三个关键因素共同导致:
-
元数据不可达:生命周期策略将 meta.json 文件转入 Glacier 后,Storegateway 无法直接读取这些关键元数据
-
级联故障:即使部分数据恢复,Thanos 的标记删除机制会因无法验证 deletion-mark.json 而拒绝加载整个数据块
-
设计限制:Thanos 目前不支持需要预取操作的存储后端,所有元数据必须能够被即时访问
解决方案
短期应对措施
-
元数据恢复:
- 对已转入 Glacier 的 meta.json 文件发起批量恢复
- 设置恢复保留期以满足业务查询需求
-
生命周期策略优化:
- 为元数据文件设置独立的生命周期规则
- 保持 meta.json 和 deletion-mark.json 始终在 Standard 或 Standard-IA 存储类
长期架构建议
-
存储分层策略:
- 热数据:Standard 存储类(30天内)
- 温数据:Standard-IA 存储类(30-90天)
- 冷数据:Glacier 存储类(90天以上)
-
查询层优化:
- 对历史数据查询实现预取机制
- 考虑使用 Thanos Compactor 预先聚合关键指标
-
监控增强:
- 实现存储类转换预警
- 建立元数据健康检查机制
经验总结
该案例揭示了监控系统长期存储架构设计中的几个重要原则:
-
元数据可用性:核心元数据必须保持即时可访问性
-
存储分层设计:需要平衡成本与性能,考虑查询模式
-
组件兼容性:存储后端选择需确认与各组件兼容性
-
故障隔离:关键功能依赖项应有适当的降级策略
对于使用 Thanos 构建监控系统的团队,建议在实施存储生命周期策略前,充分测试各组件在不同存储类下的行为表现,确保系统功能完整性和查询性能满足业务需求。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0171
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook093
Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成,具备原生图像理解能力。Python00
BitCPM-CANN-8BBitCPM-CANN 是首个基于华为昇腾 NPU 原生构建的端到端 1.58 位(三值化)大语言模型训练系统。该系统将量化感知训练(QAT)集成到 Megatron-LM 框架中,并结合 MindSpeed 加速,覆盖了从自定义三值算子到基于昇腾 910B 的分布式并行训练的完整训练栈。Python00
MiniCPM5-1BMiniCPM5-1B,这是 MiniCPM5 系列的首款模型。它是一个专为端侧、本地部署和资源受限场景打造的 10 亿参数密集型 Transformer 模型,达到了 10 亿参数级开源模型的 SOTA 水平Jinja00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0239
项目优选
收起
暂无描述
Dockerfile
749
4.86 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
641
1.26 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
835
1.83 K
Ascend Extension for PyTorch
Python
685
828
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
450
417
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.02 K
1.04 K
CANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。
Jupyter Notebook
205
93
Oohos_react_native
React Native鸿蒙化仓库
C++
352
413
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.53 K
171
deepin linux kernel
C
32
16