如何用Nvidia GPU Exporter轻松监控你的GPU性能:完整指南
Nvidia GPU Exporter是一款专为Prometheus设计的高效工具,通过nvidia-smi二进制文件收集、解析并导出GPU指标。它支持Windows、Linux、MacOS等多系统,无需Docker或复杂环境,特别适合游戏玩家实时监控GPU状态。
🚀 为什么选择Nvidia GPU Exporter?
市面上许多GPU监控工具存在维护停滞、依赖Linux/Docker或仅支持企业级部署(如DCGM)等问题。而Nvidia GPU Exporter凭借以下优势脱颖而出:
- 跨平台兼容:只要系统安装了
nvidia-smi,无论是Windows游戏主机、Linux工作站还是MacBook,都能稳定运行 - 轻量便捷:采用Go语言编写,生成单一静态二进制文件,无需复杂依赖
- 自动发现:智能识别
nvidia-smi支持的所有指标字段,轻松应对未来GPU型号更新 - 可视化支持:配套Grafana仪表盘,直观展示GPU性能数据
对于追求极致游戏体验的玩家来说,这款工具更是监控硬件状态的理想选择!🎮
📊 GPU监控可视化展示
通过Grafana仪表盘,你可以将枯燥的数字转化为生动的图表,实时掌握GPU温度、显存占用、功耗等关键指标:
Nvidia GPU Exporter Grafana仪表盘展示GPU温度、利用率和内存使用情况
🔧 快速安装指南
Windows一键安装方案
如果你是Windows用户且不熟悉Prometheus/Grafana配置,推荐使用PowerShell安装脚本实现全自动部署:
- 下载安装脚本
- 以管理员身份打开PowerShell
- 执行脚本:
C:\Users\<你的用户名>\Downloads\windows.ps1 - 验证服务:访问
http://localhost:9090(Prometheus)和http://localhost:3000(Grafana) - Grafana初始登录:用户名
admin,密码admin - 导入仪表盘:在Grafana中选择"Create - Import",输入
14574并加载 - 选择Prometheus作为数据源,完成导入
Linux系统安装
Debian/Ubuntu (.deb包)
sudo dpkg -i nvidia-gpu-exporter_1.3.1_linux_amd64.deb
RedHat/CentOS (.rpm包)
sudo rpm -i nvidia-gpu-exporter_1.3.1_linux_amd64.rpm
⚠️ 注意:.deb和.rpm包仅支持使用systemd作为初始化系统的Linux发行版
二进制文件安装
VERSION=1.3.1
wget https://gitcode.com/gh_mirrors/nv/nvidia_gpu_exporter/releases/download/v${VERSION}/nvidia_gpu_exporter_${VERSION}_linux_x86_64.tar.gz
tar -xvzf nvidia_gpu_exporter_${VERSION}_linux_x86_64.tar.gz
sudo mv nvidia_gpu_exporter /usr/bin
源码编译安装
如果你需要最新开发版本,可以通过源码编译:
git clone https://gitcode.com/gh_mirrors/nv/nvidia_gpu_exporter.git
cd nvidia_gpu_exporter
go build -o nvidia_gpu_exporter ./cmd/nvidia_gpu_exporter
sudo mv nvidia_gpu_exporter /usr/local/bin/
⚙️ 配置与启动服务
命令行参数说明
Nvidia GPU Exporter提供丰富的配置选项,通过命令行参数即可轻松调整:
usage: nvidia_gpu_exporter [<flags>]
Flags:
-h, --help 显示帮助信息
--web.listen-address=":9835" 监听地址,默认:9835
--web.telemetry-path="/metrics" 指标暴露路径,默认/metrics
--nvidia-smi-command="nvidia-smi" nvidia-smi命令路径
--query-field-names="AUTO" 查询字段,AUTO自动发现所有支持字段
--log.level=info 日志级别:debug, info, warn, error
--log.format=logfmt 日志格式:logfmt, json
--version 显示版本信息
作为系统服务运行
Linux (Systemd)
- 创建系统用户:
sudo useradd --system --no-create-home --shell /usr/sbin/nologin nvidia_gpu_exporter
- 复制服务文件:
sudo cp systemd/nvidia_gpu_exporter.service /etc/systemd/system/
- 启动并设置开机自启:
sudo systemctl daemon-reload
sudo systemctl enable --now nvidia_gpu_exporter
Windows服务安装
- 安装Scoop包管理器:
Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
Invoke-Expression (New-Object System.Net.WebClient).DownloadString('https://get.scoop.sh')
- 安装必要组件:
scoop install git
scoop install nssm --global
scoop bucket add nvidia_gpu_exporter https://gitcode.com/gh_mirrors/nv/nvidia_gpu_exporter.git
scoop install nvidia_gpu_exporter/nvidia_gpu_exporter --global
- 配置防火墙和服务:
New-NetFirewallRule -DisplayName "Nvidia GPU Exporter" -Direction Inbound -Action Allow -Protocol TCP -LocalPort 9835
nssm install nvidia_gpu_exporter "C:\ProgramData\scoop\apps\nvidia_gpu_exporter\current\nvidia_gpu_exporter.exe"
Start-Service nvidia_gpu_exporter
验证安装
服务启动后,访问http://localhost:9835/metrics即可查看原始指标数据。成功安装后,指标页面会显示类似以下内容:
nvidia_smi_temperature_gpu{uuid="df6e7a7c-7314-46f8-abc4-b88b36dcf3aa"} 34
nvidia_smi_utilization_gpu_ratio{uuid="df6e7a7c-7314-46f8-abc4-b88b36dcf3aa"} 0
nvidia_smi_memory_used_bytes{uuid="df6e7a7c-7314-46f8-abc4-b88b36dcf3aa"} 7.06740224e+08
🌐 高级功能:远程监控配置
Nvidia GPU Exporter支持通过自定义命令远程采集GPU指标,例如监控局域网内的游戏主机:
nvidia_gpu_exporter --nvidia-smi-command "ssh username@remote-host nvidia-smi"
这个功能特别适合家庭实验室或多设备环境,让你在树莓派上集中监控所有GPU设备!
📚 深入学习与资源
- 官方文档:CONFIGURE.md - 详细配置选项说明
- 指标参考:METRICS.md - 所有支持的GPU指标列表
- 源码目录:internal/exporter/ - 核心指标采集逻辑
- Grafana仪表盘:grafana/dashboard.json - 可视化配置文件
通过这些资源,你可以根据需求定制监控方案,实现更精细化的GPU性能管理。
🎯 总结
Nvidia GPU Exporter是一款简单高效的GPU监控工具,无论是游戏玩家还是开发者,都能通过它轻松掌握GPU运行状态。其跨平台特性和丰富的可视化选项,使其成为同类工具中的佼佼者。按照本文指南,只需几分钟即可完成从安装到可视化的全流程配置,让你的GPU监控变得前所未有的简单!
现在就开始监控你的GPU,优化系统性能,享受更流畅的游戏体验吧!🚀
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00