Intel PCM内存带宽监控问题深度解析与解决方案

2025-06-27 15:19:06作者：蔡丛锟

项目地址：https://gitcode.com/gh_mirrors/pcm/pcm

背景概述

Intel处理器性能计数器监控工具（PCM）是用于监测Intel处理器性能指标的重要工具。在实际使用中，部分用户发现PCM无法正确显示本地内存带宽（LMB）和远程内存带宽（RMB）指标，而这些指标在使用pqos-msr工具时却能正常获取。本文将深入分析这一问题的技术原因，并提供完整的解决方案。

问题现象分析

在特定配置的Intel Xeon Gold 6132处理器环境中，用户观察到以下现象：

通过pqos-msr工具可以正常获取LMB和RMB指标
PCM工具（特别是pcm-sensor-server）在Prometheus集成中显示这些指标为0
系统已正确配置RDT（资源目录技术）相关内核参数

根本原因

经过深入分析，发现这一问题源于处理器微码的特定限制：

硬件限制：某些Intel处理器型号（如Xeon Gold 6132）存在已知的微码问题，导致默认情况下禁用了RDT计数器访问
安全考量：Linux内核出于稳定性考虑，默认会禁用这些可能受影响的计数器
工具差异：pqos-msr工具采用直接MSR访问方式，而PCM默认优先使用Linux resctrl接口

技术解决方案

方案一：强制启用MBM监控

最新版本的PCM提供了环境变量配置选项：

export PCM_ENFORCE_MBM=1

此设置会强制PCM启用内存带宽监控功能，绕过默认的禁用逻辑。

方案二：禁用resctrl接口

当系统resctrl配置存在问题时，可完全绕过Linux接口：

export PCM_USE_RESCTRL=0

此设置使PCM直接访问MSR寄存器，类似于pqos-msr的工作方式。

实施步骤详解

确认处理器型号和微码版本 使用命令检查处理器信息：
```
lscpu | grep "Model name"
dmesg | grep microcode
```
更新PCM到最新版本 确保使用PCM的主分支最新代码，旧版本可能不支持相关功能。

配置环境变量 根据实际情况选择以下配置之一：

# 方案一：强制启用MBM
export PCM_ENFORCE_MBM=1

# 方案二：直接MSR访问
export PCM_USE_RESCTRL=0

验证配置 启动pcm-sensor-server后，通过以下命令验证指标是否正常：
```
curl --silent http://localhost:9738/metrics | grep Memory_Bandwidth
```

技术要点说明

RDT技术背景：Intel的资源目录技术提供了细粒度的资源监控和分配能力，包括缓存监控(CMT)和内存带宽监控(MBM)。
监控方式对比：
- resctrl接口：通过Linux内核提供的文件系统接口
- 直接MSR访问：绕过内核直接读写模型特定寄存器
性能考量：直接MSR访问通常具有更低的开销，但需要更高的权限且可能影响系统稳定性。

最佳实践建议

在生产环境中，建议首先尝试PCM_ENFORCE_MBM=1方案，因其平衡了功能性和稳定性。
对于需要长期监控的场景，可将环境变量配置写入系统启动脚本。
定期检查PCM更新，Intel会持续改进对各种处理器特性的支持。
在关键业务系统上实施前，建议在测试环境充分验证。

总结

pcm

项目地址：https://gitcode.com/gh_mirrors/pcm/pcm

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Intel PCM内存带宽监控问题深度解析与解决方案

背景概述

问题现象分析

根本原因

技术解决方案

方案一：强制启用MBM监控

方案二：禁用resctrl接口

实施步骤详解

技术要点说明

最佳实践建议

总结

热门内容推荐

最新内容推荐

项目优选

Intel PCM内存带宽监控问题深度解析与解决方案

背景概述

问题现象分析

根本原因

技术解决方案

方案一：强制启用MBM监控

方案二：禁用resctrl接口

实施步骤详解

技术要点说明

最佳实践建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选