【亲测免费】 NVIDIA DCGM 导出器安装与配置完全指南

2026-01-25 05:26:04作者：乔或婵

一、项目基础介绍及编程语言

NVIDIA DCGM 导出器（dcgm-exporter）是一款专为监控NVIDIA GPU性能指标而设计的开源工具。它允许将GPU的详细度量数据导出至Prometheus，一个流行的开源监控系统。此项目基于Go语言开发，利用了NVIDIA Data Center GPU Manager（DCGM），使得在容器化环境（如Docker和Kubernetes）中监控GPU变得简单高效。

二、关键技术和框架

技术要点：

NVIDIA DCGM：提供深入的GPU健康状况和性能指标。
Prometheus：作为目标监控系统，用于收集、存储和查询监控数据。
Golang：项目的开发语言，利于创建跨平台的应用程序。
Helm Charts：当在Kubernetes上部署时，使用Helm进行管理和配置。

框架与工具：

Docker：容器化运行dcgm-exporter的环境。
Helm：Kubernetes上的包管理工具，用于简化部署过程。
Exporter Toolkit：支持TLS和基本认证的库。

三、安装与配置步骤

准备工作：

确保你的系统满足以下条件：

Docker安装：确保本地已安装最新版Docker。
Golang环境（如果你计划从源码编译）。
Kubernetes（如果你打算在集群中部署）。
Prometheus（可选，如果你要集成监控）。

安装步骤：

直接在Docker中启动（适用于快速测试）：

打开终端。
运行以下命令以启动dcgm-exporter容器，假设你的机器支持GPU并已正确设置GPU容器支持：
```
docker run -d --gpus all --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:latest
```
测试是否成功安装，访问Prometheus格式的metrics端点：
```
curl localhost:9400/metrics
```

在Kubernetes集群上部署：

安装Helm（如果尚未安装）。

添加NVIDIA的Helm仓库：

helm repo add gpu-helm-charts https://nvidia.github.io/dcgm-exporter/helm-charts

更新Helm图表仓库：
```
helm repo update
```
使用Helm安装dcgm-exporter（这里--generate-name会自动生成服务名）：
```
helm install --generate-name gpu-helm-charts/dcgm-exporter
```
查看Pod状态以验证安装：
```
kubectl get pods
```

通过Port Forward获取Metrics（假定Pod名为dcgm-exporter-example）：

kubectl port-forward $(kubectl get pods -l "app.kubernetes.io/name=dcgm-exporter" -o jsonpath='{.items[0].metadata.name}') 8080:9400

访问本地端口查看metrics：
```
curl -sL http://localhost:8080/metrics
```

高级配置与集成：

修改或定制收集的指标，需编辑CSV文件，并使用 -f 参数指定自定义文件路径启动dcgm-exporter。
若要启用TLS和基本认证，准备web-config.yaml文件，并通过 --web-config-file 启动选项指定。
对于Kubernetes集成，考虑使用GPU Operator来自动化整个流程，并确保Prometheus和Grafana能够接入这些监控数据，可以通过导入官方提供的Grafana Dashboard JSON配置来完成可视化展示。

至此，您已经完成了NVIDIA DCGM 导出器的基本安装与配置，可以开始您的GPU性能监控之旅。记得根据实际需求调整配置细节，享受便捷的GPU监控体验。

dcgm-exporter

NVIDIA GPU metrics exporter for Prometheus leveraging DCGM

项目地址：https://gitcode.com/gh_mirrors/dc/dcgm-exporter

登录后查看全文

【亲测免费】 NVIDIA DCGM 导出器安装与配置完全指南

一、项目基础介绍及编程语言

二、关键技术和框架

技术要点：

框架与工具：

三、安装与配置步骤

准备工作：

安装步骤：

直接在Docker中启动（适用于快速测试）：

在Kubernetes集群上部署：

高级配置与集成：

热门内容推荐

最新内容推荐

项目优选

【亲测免费】 NVIDIA DCGM 导出器安装与配置完全指南

一、项目基础介绍及编程语言

二、关键技术和框架

技术要点：

框架与工具：

三、安装与配置步骤

准备工作：

安装步骤：

直接在Docker中启动（适用于快速测试）：

在Kubernetes集群上部署：

高级配置与集成：

相关内容推荐

热门内容推荐

最新内容推荐

项目优选