机器学习工程开源项目中GPU利用率监控的实践指南

2025-05-16 20:57:01作者：蔡怀权

在机器学习工程实践中，GPU资源的高效利用至关重要。本文基于机器学习工程开源项目中的讨论，深入探讨如何有效监控各类GPU设备的利用率指标，特别是针对消费级显卡的监控方案。

GPU监控工具的选择与限制

NVIDIA官方提供的DCGM（Data Center GPU Manager）工具套件是数据中心级GPU监控的黄金标准，但其对消费级显卡（如GTX 30/40系列）的支持有限。这一限制在实际工程实践中经常被忽视，导致用户在使用dcgm-exporter时遇到兼容性问题。

消费级GPU的监控方案

对于消费级显卡用户，可以采用以下替代方案：

NVML基础监控：通过NVIDIA Management Library (NVML)提供的底层API，可以获取包括SM利用率、显存占用、温度等基础指标。Python用户可以使用nvidia-ml-py包进行访问。
gpustat工具：这是一个基于NVML的高层封装，提供了简洁的命令行界面和API，适合快速查看GPU状态。
自定义监控脚本：通过NVML API可以开发定制化的监控工具，获取包括SM占用率在内的详细指标。

实战代码示例

以下是一个使用nvidia-ml-py获取GPU指标的Python脚本示例：

import pynvml

# 初始化NVML
pynvml.nvmlInit()

# 定义要监控的指标
metrics = [pynvml.NVML_GPM_METRIC_SM_UTIL, pynvml.NVML_GPM_METRIC_SM_OCCUPANCY]

# 遍历所有GPU设备
for device_idx in range(pynvml.nvmlDeviceGetCount()):
    handle = pynvml.nvmlDeviceGetHandleByIndex(device_idx)
    name = pynvml.nvmlDeviceGetName(handle)
    
    # 检查GPM指标支持情况
    if not pynvml.nvmlGpmQueryDeviceSupport(handle).isSupportedDevice:
        print(f"设备 {device_idx} ({name}) 不支持GPM指标")
        continue
    
    # 获取指标采样
    sample1 = pynvml.nvmlGpmSampleGet(handle, pynvml.nvmlGpmSampleAlloc())
    sample2 = pynvml.nvmlGpmSampleGet(handle, pynvml.nvmlGpmSampleAlloc())
    
    # 配置指标获取参数
    metrics_get = pynvml.c_nvmlGpmMetricsGet_t()
    metrics_get.version = pynvml.NVML_GPM_METRICS_GET_VERSION
    metrics_get.numMetrics = len(metrics)
    metrics_get.sample1 = sample1
    metrics_get.sample2 = sample2
    
    # 获取并输出指标
    for i, metric in enumerate(metrics):
        metrics_get.metrics[i].metricId = metric
        result = metrics_get.metrics[i]
        print(f"{str(result.metricInfo.longName, 'utf-8')}: {result.value}")

pynvml.nvmlShutdown()