Windows Exporter中CPU利用率指标异常问题分析与修复

2025-06-26 04:27:05作者：房伟宁

问题背景

在Windows Exporter的0.30.x版本中，用户报告了一个关于CPU监控指标的重要问题：windows_cpu_processor_utility_total和windows_cpu_processor_rtc_total这两个关键指标始终显示为0值，而相关的windows_cpu_processor_privileged_utility_total指标却能正常显示数值。这个问题影响了用户准确监控Windows系统的CPU使用情况。

问题表现

受影响的指标包括：

windows_cpu_processor_utility_total：始终为0
windows_cpu_processor_rtc_total：始终为0
windows_cpu_parking_status：始终为0（可能正常）
windows_cpu_processor_performance_total：在0.27.2版本有值，但在新版本中为0

而windows_cpu_processor_privileged_utility_total指标则能正常显示数值。

影响范围

该问题影响多个Windows版本：

Windows 10（多个版本）
Windows 11 24H2
Windows Server 2022

问题根源分析

经过社区成员的深入调查，发现问题主要有两个技术原因：

计数器处理逻辑错误：在PDH收集器实现中，对于带有",secondvalue"后缀的计数器名称处理不当。原始代码中，计数器名称的修剪操作发生在计数器查找之后，导致",secondvalue"计数器会覆盖普通计数器。
计数器累加算法缺陷：在windows_cpu_processor_rtc_total指标的计算中，计数器累加算法存在逻辑错误。原始实现没有正确更新lastValue，导致每次都是计算新值与初始值的差，而非连续两次采样的差值。

解决方案

社区贡献者提出了两个关键修复：

修正计数器处理顺序：
- 先检查是否存在",secondvalue"后缀
- 先修剪名称再进行计数器查找
- 确保两个值都存在于同一个计数器上
修复计数器累加逻辑：
- 在AddValue方法中正确更新lastValue
- 确保计算的是连续两次采样的差值

修复效果验证

修复后的版本经过多位用户验证：

windows_cpu_processor_utility_total恢复正常显示
windows_cpu_processor_rtc_total显示合理值（约626K）
使用公式avg(rate(windows_cpu_processor_utility_total{}[1m]) / rate(windows_cpu_processor_rtc_total{}[1m]))计算的结果与Windows资源监视器和任务管理器显示的数据一致