使用PCM工具监控DRAM访问延迟的技术解析

2025-06-27 12:57:40作者：卓炯娓

项目地址：https://gitcode.com/gh_mirrors/pcm/pcm

在现代计算机体系结构中，DRAM访问延迟是影响系统性能的关键因素之一。Intel Performance Counter Monitor（PCM）工具提供了强大的硬件性能监控能力，可以帮助开发者深入分析内存子系统行为。本文将详细介绍如何利用PCM监控DRAM访问延迟。

核心监控事件

PCM通过特定的性能监控事件来捕获内存访问行为，其中三个关键事件构成了DRAM延迟监控的基础：

UNC_CHA_TOR_OCCUPANCY.IA_MISS_DRD_LOCAL
该事件统计处理器核心发起的本地内存读请求在CHA（Caching Home Agent）队列中的停留周期数，反映了请求在内存控制器中的等待时间。
UNC_CHA_TOR_INSERTS.IA_MISS_DRD_LOCAL
该事件记录处理器核心发起的本地内存读请求进入CHA队列的总次数，用于计算平均延迟。
UNC_CHA_CLOCKTICKS
基础时钟周期计数事件，为计算实际时间提供基准。

事件计数器分配策略

PCM的性能监控单元包含多个硬件计数器，合理分配这些计数器是同时监控多个事件的关键：

固定计数器事件：如UNC_CHA_TOR_OCCUPANCY.IA_MISS_DRD_LOCAL只能使用计数器0
灵活计数器事件：如UNC_CHA_TOR_INSERTS.IA_MISS_DRD_LOCAL和UNC_CHA_CLOCKTICKS可使用多个计数器

推荐的计数器分配方案：

计数器0 → UNC_CHA_TOR_OCCUPANCY.IA_MISS_DRD_LOCAL
计数器1 → UNC_CHA_TOR_INSERTS.IA_MISS_DRD_LOCAL  
计数器2 → UNC_CHA_CLOCKTICKS

延迟计算方法

获得这三个事件的计数值后，可以计算出DRAM访问的平均延迟：

平均延迟 = (TOR_OCCUPANCY / TOR_INSERTS) × (时钟周期时间)

其中：

TOR_OCCUPANCY反映总等待时间
TOR_INSERTS反映请求数量
时钟周期提供时间基准

实际应用建议

监控环境配置：确保系统支持Uncore性能监控，并具有足够的访问权限
结果解读：正常DRAM延迟通常在几十到几百纳秒，异常值可能指示内存带宽瓶颈
扩展分析：可结合其他内存相关事件如缓存命中率进行综合分析

通过这种监控方法，开发者可以精确量化内存访问延迟，为性能优化提供数据支持。理解这些底层监控机制对于系统调优和瓶颈分析具有重要意义。

pcm

项目地址：https://gitcode.com/gh_mirrors/pcm/pcm

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

987

249

使用PCM工具监控DRAM访问延迟的技术解析

核心监控事件

事件计数器分配策略

延迟计算方法

实际应用建议

热门内容推荐

最新内容推荐

项目优选

使用PCM工具监控DRAM访问延迟的技术解析

核心监控事件

事件计数器分配策略

延迟计算方法

实际应用建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选