dstack项目中集成DCGM指标采集与监控的技术实践

2025-07-08 13:26:44作者：虞亚竹Luna

Vendor-agnostic orchestration for training, inference and agentic workloads across NVIDIA, AMD, TPU, and Tenstorrent on clouds, Kubernetes, and bare metal.

项目地址：https://gitcode.com/gh_mirrors/ds/dstack

背景介绍

在现代GPU计算环境中，准确监控GPU资源使用情况对于性能优化和资源管理至关重要。dstack作为一个开源项目，在早期版本中仅能采集VRAM使用率和GPU利用率两项基本指标，这远远不能满足深度学习和高性能计算场景下的监控需求。

原有方案的局限性

dstack最初实现的GPU监控功能存在明显不足：

指标单一：仅能获取显存使用率和GPU利用率两个指标
利用率指标不准确：GPU利用率仅反映内核执行时间占比，无法区分实际计算负载和空转状态
缺乏详细指标：无法获取温度、功耗、SM（流式多处理器）利用率等关键性能指标

这种简单的监控方案难以帮助用户全面了解GPU工作状态，也无法为性能调优提供足够的数据支持。

DCGM解决方案

NVIDIA Data Center GPU Manager (DCGM) 是业界标准的GPU监控工具套件，它提供了：

全面的指标采集：包括温度、功耗、内存带宽、计算利用率等数十种指标
低开销：专为数据中心环境优化，采集过程对GPU性能影响极小
标准化接口：提供统一的API和Prometheus导出格式，便于集成

技术实现方案

在dstack中集成DCGM监控功能需要以下几个关键步骤：

1. DCGM Exporter部署

在计算节点上部署DCGM Exporter组件，该组件会：

通过NVIDIA管理库(NVML)与GPU驱动交互
定期采集各项性能指标
提供Prometheus格式的指标端点

2. 指标采集架构

设计分层采集架构：

节点层：DCGM Exporter直接采集物理GPU指标
聚合层：dstack服务汇总各节点指标
存储层：时序数据库持久化存储历史数据

3. 指标丰富与增强

在聚合层对原始指标进行加工：

添加任务/用户等上下文标签
计算衍生指标（如效率比）
实现指标别名映射，保持兼容性

4. 统一暴露接口

通过dstack提供统一的监控API和仪表板，用户可以通过：

Prometheus协议直接拉取
REST API查询特定指标
Web界面可视化监控数据

实施效果

完成DCGM集成后，dstack能够提供：

更全面的GPU监控：温度、功耗、内存带宽等数十种指标
更精确的利用率数据：区分计算、内存、SM等不同类型利用率
历史数据分析：支持长时间跨度性能趋势分析
告警功能：基于阈值设置自动告警

总结

通过在dstack中集成DCGM监控方案，显著提升了GPU资源监控能力，为用户提供了更全面、更精确的性能数据。这一改进不仅有助于日常运维监控，也为性能优化和资源调度决策提供了坚实的数据基础。未来可考虑进一步扩展支持AMD GPU监控方案，实现跨厂商的统一监控体验。

Vendor-agnostic orchestration for training, inference and agentic workloads across NVIDIA, AMD, TPU, and Tenstorrent on clouds, Kubernetes, and bare metal.

项目地址：https://gitcode.com/gh_mirrors/ds/dstack

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

昇腾LLM分布式训练框架

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started