Prometheus Pushgateway持久化存储配置指南

2025-06-07 22:03:42作者：舒璇辛Bertina

问题背景

在使用Prometheus Pushgateway时，许多用户会遇到一个常见问题：当Pod重启后，之前推送的指标数据会丢失。这是由于Pushgateway默认将指标数据存储在内存中，而非持久化存储。本文将详细介绍如何通过Helm Chart为Pushgateway配置持久化存储，确保指标数据在Pod重启后仍然可用。

解决方案详解

1. 持久化卷配置

要实现Pushgateway数据的持久化，首先需要启用持久化卷(PV)功能。在Helm values.yaml文件中进行如下配置：

persistentVolume:
  enabled: true
  size: 1Gi
  storageClass: gp3-encrypted

这段配置会：

启用持久化卷功能
分配1GB的存储空间
使用gp3-encrypted存储类（适用于AWS EKS环境）

2. Pushgateway参数配置

仅仅配置PV还不够，还需要告诉Pushgateway将数据写入持久化存储。通过extraArgs参数配置：

extraArgs:
  - --persistence.file=/data/pushgateway-metrics.data
  - --persistence.interval=5m

这两个参数的作用是：

--persistence.file：指定数据持久化文件的路径
--persistence.interval：设置每5分钟将内存中的数据持久化到文件一次

3. 安全上下文配置

在Kubernetes环境中，还需要注意Pod的安全上下文配置，确保Pushgateway有权限写入持久化卷：

containerSecurityContext:
  runAsUser: 65534
  allowPrivilegeEscalation: false
  readOnlyRootFilesystem: false
  runAsNonRoot: true

关键点是readOnlyRootFilesystem: false，这允许容器写入文件系统。

验证与排错

配置完成后，需要进行验证：

检查PV和PVC是否成功创建
进入Pod查看/data目录下是否生成了pushgateway-metrics.data文件
推送一些测试指标，然后重启Pod，检查指标是否仍然存在

如果发现指标没有持久化，可以尝试以下步骤：

确认Pod有权限写入/data目录
检查Pushgateway日志是否有写入错误
确保Pod正常终止（给足够时间让Pushgateway完成最后一次持久化）

最佳实践建议

持久化间隔：根据业务需求调整persistence.interval，太频繁会影响性能，间隔太长则可能丢失更多数据。
存储大小：1GB对于大多数场景足够，但如果有大量短期指标，可以适当增加。
备份策略：虽然有了PV，但仍建议定期备份pushgateway-metrics.data文件。
监控：监控/data目录的使用情况，避免磁盘写满。

通过以上配置，Pushgateway就能可靠地持久化指标数据，确保即使在Pod重启后也不会丢失重要监控数据。

helm-charts

Prometheus community Helm charts

项目地址：https://gitcode.com/gh_mirrors/he/helm-charts

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

518

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

648

287