NVIDIA GPU Operator 中 DCGM Exporter 自定义指标支持的技术解析

2025-07-04 23:33:28作者：傅爽业Veleda

在 Kubernetes 集群中监控 GPU 资源的使用情况是运维和开发人员的重要需求。NVIDIA GPU Operator 通过集成 DCGM Exporter 组件，为 Prometheus 提供了丰富的 GPU 监控指标。近期社区提出了一项重要功能增强——通过 Helm values 文件直接定义 DCGM Exporter 的自定义监控指标，这显著简化了用户部署配置的复杂度。

传统方案中，用户需要预先创建包含自定义指标定义的 ConfigMap，并通过 ClusterPolicy CRD 中的 config 字段引用。这种方式虽然可行，但增加了部署的复杂性，用户需要维护额外的 Kubernetes 资源。新方案的核心改进是允许在 Helm values.yaml 文件中直接以 YAML 格式声明自定义指标，由 Operator 自动处理后续的配置生成和注入。

从技术实现角度看，这个功能增强不需要修改 ClusterPolicy CRD 的架构。Operator 的 Helm chart 已经为其他组件（如 k8s-device-plugin 和 mig-manager）提供了类似的配置模式。实现方案会复用现有的 config 字段机制，但通过 Helm 模板将用户提供的自定义指标配置自动转换为 ConfigMap 内容。这种设计保持了向后兼容性，同时提供了更友好的用户体验。

对于运维人员而言，新功能意味着他们可以在部署 GPU Operator 时，直接在 values.yaml 中定义如下的自定义指标配置：

dcgmExporter:
  customMetrics:
    - name: "user_defined_metric"
      field: "custom.field"
      description: "User defined metric description"

这项改进特别适合需要监控特定 GPU 指标的场景，比如某些深度学习框架特有的性能计数器或业务自定义的利用率指标。通过简化配置流程，降低了使用门槛，使得更多用户能够充分利用 DCGM Exporter 的强大监控能力。

从架构演进的角度看，这是 GPU Operator 向更声明式、更用户友好方向发展的又一进步。未来可能会看到更多组件采用类似的配置模式，进一步简化 GPU 资源在 Kubernetes 中的管理体验。

gpu-operator

NVIDIA GPU Operator creates, configures, and manages GPUs in Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/gp/gpu-operator

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

MindQuantum is a general software library supporting the development of applications for quantum computation.

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.11 K

682