Intel PCM工具中Uncore性能事件计数器的配置与使用

2025-06-27 00:20:20作者：咎竹峻Karen

Intel® Performance Counter Monitor (Intel® PCM)

项目地址：https://gitcode.com/gh_mirrors/pc/pcm

在Intel处理器性能监控工具PCM中，正确配置Uncore性能事件计数器是进行内存子系统性能分析的关键。本文将以DRAM访问延迟监控为例，深入解析Uncore计数器的配置原理和使用方法。

Uncore性能事件计数器基础

现代Intel处理器中的Uncore性能监控单元(PMU)包含多个计数器，这些计数器可以独立配置来监测不同的硬件事件。每个Uncore事件都有其特定的计数器分配要求，这决定了该事件可以在哪些物理计数器上被监测。

典型DRAM延迟监控事件配置

监控DRAM访问延迟通常需要组合使用以下三个关键事件：

UNC_CHA_TOR_OCCUPANCY.IA_MISS_DRD_LOCAL
该事件用于测量核心发起的本地内存读请求在CHA(Home Agent)中的停留时间，反映内存访问延迟。它只能配置在计数器0上。
UNC_CHA_TOR_INSERTS.IA_MISS_DRD_LOCAL
该事件记录核心发起的本地内存读请求数量。它可以灵活地配置在计数器0、1、2或3上。
UNC_CHA_CLOCKTICKS
该事件提供时间基准，可以配置在所有计数器上。

计数器分配策略

理解事件的计数器分配限制对于构建有效的监控方案至关重要。合理的分配方案应遵循以下原则：

优先分配具有严格限制的事件
确保同一计数器不被多个事件同时占用
充分利用计数器的灵活性

对于上述三个事件，推荐的分配方案为：

计数器0：UNC_CHA_TOR_OCCUPANCY.IA_MISS_DRD_LOCAL
计数器1：UNC_CHA_TOR_INSERTS.IA_MISS_DRD_LOCAL
计数器2：UNC_CHA_CLOCKTICKS

这种分配方式可以确保所有事件被同时监测，且不会产生计数器冲突。

实际应用中的注意事项

计数器资源竞争：在复杂监控场景中，可能需要监控更多事件，这时需要仔细规划计数器分配。
测量精度：使用UNC_CHA_CLOCKTICKS作为时间基准时，需要注意其精度和同步问题。
性能影响：同时监控多个事件可能会对系统性能产生轻微影响，在性能敏感场景中需要评估。

通过合理配置这些Uncore性能事件，开发者可以准确测量内存访问延迟，为系统性能优化提供重要依据。理解计数器分配机制是有效使用PCM工具进行高级性能分析的基础。

Intel® Performance Counter Monitor (Intel® PCM)

项目地址：https://gitcode.com/gh_mirrors/pc/pcm

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统