Beszel项目在Jetson Orin设备上的GPU监控优化

2025-05-21 23:59:51作者：瞿蔚英Wynne

背景介绍

Beszel是一款开源的系统监控工具，能够实时显示CPU、内存、磁盘、网络以及GPU等硬件资源的使用情况。在支持NVIDIA GPU的设备上，Beszel通过nvidia-smi工具获取GPU的温度、内存使用率、利用率等关键指标。然而，当运行在Jetson Orin系列开发板（如Orin Nano、Orin NX）上时，Beszel遇到了GPU监控数据获取异常的问题。

问题分析

Jetson Orin系列开发板采用了NVIDIA的Tegra架构，与传统的NVIDIA独立显卡在工作机制上存在显著差异。通过技术分析，我们发现以下几个关键点：

nvidia-smi工具限制：在Jetson设备上，nvidia-smi输出的GPU信息大多显示为[N/A]，无法提供有效的监控数据。这与传统NVIDIA显卡的行为不同。
tegrastats工具优势：Jetson平台特有的tegrastats工具能够提供丰富的系统信息，包括：
- GPU使用率（GR3D_FREQ字段）
- 系统整体功耗（VDD_IN字段）
- 各组件温度
- 内存带宽利用率（EMC_FREQ字段）
内存架构差异：Jetson设备采用统一内存架构，GPU与CPU共享内存，因此传统的显存监控概念在此不适用。

解决方案实现

Beszel开发团队针对Jetson设备的特殊性进行了以下优化：

多数据源支持：当检测到nvidia-smi无法提供有效数据时，自动切换到tegrastats作为数据源。
指标映射转换：
- 将GR3D_FREQ值映射为GPU利用率
- 使用VDD_IN值作为系统总功耗指标
- 隐藏不适用于统一内存架构的显存监控图表
设备识别优化：对于无法通过nvidia-smi获取设备名称的情况，统一显示为"GPU"，确保界面一致性。

技术细节

tegrastats输出的关键字段解析：

GR3D_FREQ 63%@[621]  # GPU利用率63%，运行频率621MHz
VDD_IN 12479mW/12479mW  # 系统当前/最大功耗(12.479W)
EMC_FREQ 43%@2133  # 内存带宽利用率43%，频率2133MHz

Beszel通过正则表达式解析这些字段，转换为标准化的监控数据格式。对于功耗数据，考虑到Jetson设备的功耗限制（通常15W左右），Beszel特别优化了显示范围，确保数据可视化效果良好。

实际效果验证

在Jetson Orin NX设备上的实测显示，优化后的Beszel能够准确反映：

GPU计算负载变化
系统整体功耗波动
内存带宽压力情况

这些指标对于开发者在Jetson平台上进行AI推理、计算机视觉等高性能计算任务的调优具有重要参考价值。

总结与展望

通过对Jetson Orin设备的专门适配，Beszel完善了在边缘计算场景下的监控能力。未来可能的改进方向包括：

更精细的功耗分解（区分CPU/GPU功耗占比）
支持更多Jetson特有的性能指标
优化在高负载下的数据采集效率

这次适配不仅解决了特定平台的问题，也为Beszel在异构计算环境中的监控能力扩展积累了宝贵经验。

beszel

Lightweight server monitoring with historical data, docker stats, and alerts.

项目地址：https://gitcode.com/GitHub_Trending/be/beszel

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.02 K

265