Nvidia GPU Exporter 安装与配置完全指南
项目基础介绍与编程语言
Nvidia GPU Exporter 是一个简单而高效的小工具,专为Prometheus设计,旨在通过nvidia-smi二进制文件收集、解析并导出GPU指标。这意味着无论是在Windows、Linux还是MacOS系统上,只要拥有nvidia-smi,即可轻松监控你的GPU性能,无需依赖Docker或复杂的Linux环境。项目采用Go语言编写的,这赋予了它生成单个静态二进制文件的能力,便于部署和维护。
关键技术和框架
此项目的核心在于利用NVIDIA的官方命令行工具nvidia-smi来获取GPU的实时信息,并且通过自定义的Go代码实现对这些数据的处理和转换,使之符合Prometheus的数据采集格式。此外,它不依赖特定的容器化技术,支持跨平台运行,展现了极高的灵活性和适应性。
准备工作及详细安装步骤
环境准备
确保你的系统已安装NVIDIA驱动程序并且有nvidia-smi命令可用。对于不同的操作系统:
- Windows: 需要管理员权限
- Linux: 确保PATH中包含nvidia-smi
- macOS: 使用最新的图形驱动
安装步骤
对于所有平台:
-
下载最新版本: 从项目仓库下载对应版本的压缩包
-
解压文件: 解压缩到一个可执行路径或者你喜欢的位置
-
设置PATH: 将解压后得到的nvidia_gpu_exporter二进制文件所在的目录添加到环境变量PATH中
在Linux上的示例步骤:
VERSION=1.3.1
wget https://gitcode.com/gh_mirrors/nv/nvidia_gpu_exporter/-/releases/v${VERSION}/downloads/nvidia_gpu_exporter_${VERSION}_linux_x86_64.tar.gz
tar -xvzf nvidia_gpu_exporter_${VERSION}_linux_x86_64.tar.gz
sudo mv nvidia_gpu_exporter /usr/bin
nvidia_gpu_exporter --help
在Windows上的特别步骤:
- 打开管理员PowerShell
- 下载并安装Scoop包管理器
- 添加Nvidia GPU Exporter的bucket到Scoop
- 使用Scoop来安装服务相关工具和Nvidia GPU Exporter服务本身
配置与启动
配置说明:
- 若需定制配置,查看项目中的CONFIGURE.md文件了解如何修改默认配置
- 默认情况下,Nvidia GPU Exporter监听9835端口
启动Exporter:
在命令行中直接运行以下命令来启动服务:
nvidia_gpu_exporter
在Windows上,可能会涉及额外的步骤以作为服务安装和管理。
作为Linux系统服务安装
如果您的Linux发行版使用systemd,可以使用提供的服务单元文件安装导出器作为服务。
按照以下简单步骤操作:
- 下载与您的CPU架构匹配的Linux二进制文件,并将其放置在/usr/bin目录下
- 为服务创建名为nvidia_gpu_exporter的系统用户和组:
sudo useradd --system --no-create-home --shell /usr/sbin/nologin nvidia_gpu_exporter
- 将systemd/nvidia_gpu_exporter.service文件复制到/etc/systemd/system目录下
- 运行sudo systemctl daemon-reload
- 启动并启用服务在启动时运行:sudo systemctl enable --now nvidia_gpu_exporter
监控指标说明
Nvidia GPU Exporter提供了丰富的GPU监控指标,包括:
- 温度监控: 实时监控GPU温度
- 功耗统计: 显示GPU当前功耗、功耗限制等信息
- 内存使用: 监控GPU显存使用情况
- 时钟频率: 显示GPU核心和显存的时钟频率
- 利用率: 显示GPU计算和内存利用率
- PCIe信息: 显示PCIe链路信息
当使用AUTO查询字段模式时(这是默认设置),导出器将以最佳效果发现新字段并公开它们。
远程抓取配置
导出器可以配置为从远程机器抓取指标。一个示例用例是在家庭网络中的Raspberry Pi中运行导出器,同时通过SSH从您的PC抓取指标。
导出器支持带有参数的任意命令来生成类似nvidia-smi的输出。因此,配置非常简单。只需覆盖--nvidia-smi-command命令行参数:
nvidia_gpu_exporter --nvidia-smi-command "ssh -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null SSH_USER@SSH_HOST nvidia-smi"
可视化展示
您可以使用官方的Grafana仪表板来以美观的方式可视化您的GPU指标。仪表板提供了全面的GPU性能监控视图,包括温度、功耗、内存使用率等关键指标。
至此,Nvidia GPU Exporter已经成功安装并运行,您可以通过访问http://localhost:9835/metrics来查看您的GPU指标,进一步结合Prometheus和Grafana进行监控和可视化展示。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00
