使用pmu-tools中的toplev工具精确测量程序特定区域性能

2025-07-04 16:07:31作者：胡易黎Nicole

在性能分析和调优过程中，我们经常需要测量程序中特定函数或代码区域的性能指标。pmu-tools项目中的toplev.py工具是一个强大的性能监控工具，它基于Linux的perf子系统，能够提供多层次的性能指标分析。

测量程序特定区域的挑战

当我们需要测量程序中某个特定函数（如示例中的calculation函数）的性能时，面临的主要挑战是如何排除其他无关代码（如preparation函数）的干扰。传统的测量方法可能会包含整个程序的执行时间，这会导致测量结果不够精确。

toplev.py结合perf参数的使用技巧

虽然toplev.py自身的帮助文档没有明确列出所有perf参数，但它完全支持perf的所有参数。其中，-D参数（delay的缩写）就是一个非常有用的perf参数，它允许我们在程序启动后延迟一段时间再开始测量。

实际应用示例

对于文中提到的示例程序：

int main() {
    std::vector<float> data = preparation();  // 准备阶段
    Result res = calculation(data);           // 需要测量的核心计算阶段
}

我们可以采用以下步骤进行精确测量：

首先通过简单的时间打印或profiling工具确定preparation函数的执行时间（假设为80ms）
然后使用toplev.py时添加-D参数跳过初始阶段：

./toplev.py -l2 -D80000 -- your_program

这里：

-l2 表示使用level 2的详细程度进行分析
-D80000 表示延迟80000微秒（80毫秒）后开始测量
your_program 是要分析的目标程序

更精确的测量方法

对于更复杂的场景，我们还可以考虑以下方法：

代码插桩法：在目标函数前后添加perf_event_open系统调用，精确控制测量范围
标记区域法：使用perf的标记功能，在代码中显式标记测量开始和结束
多阶段测量：结合-D参数和测量持续时间参数，进行分段测量

注意事项

延迟时间需要根据实际情况精确测定，过短会导致包含无关代码，过长可能错过目标代码
在高精度测量时，需要考虑测量工具本身的开销
对于多线程程序，需要特别注意测量范围的准确性
建议多次测量取平均值，以减少系统波动的影响

通过合理使用toplev.py结合perf参数，我们可以实现对程序特定区域的精确性能分析，为性能优化提供可靠的数据支持。

pmu-tools

Intel PMU profiling tools

项目地址：https://gitcode.com/gh_mirrors/pm/pmu-tools

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

179

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

422

130