Stress-ng内存测试在高内存系统上的问题分析与解决方案

2025-07-05 17:47:42作者：宣利权Counsellor

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

Stress-ng是一个强大的系统压力测试工具，但在某些高内存配置的系统上执行内存测试时可能会遇到一些问题。本文将深入分析这些问题的原因，并提供有效的解决方案。

问题现象

在配备881GB内存的AMD EPYC 9754系统上运行stress-ng内存测试时，多个内存相关的压力测试项（mlock、mremap、shm-sysv、vm-splice、numa和malloc）会出现超时或被强制终止的情况。特别是在malloc测试中，即使大幅增加超时时间，仍然会出现"failed to create counter lock"的错误。

根本原因分析

经过深入调查，发现问题主要源于以下几个方面：

锁资源限制：旧版本的stress-ng为每个压力测试实例创建一个独立的锁，每个锁占用一个内存页。当系统内存非常大时，测试会创建大量实例，导致锁资源耗尽。
内存管理策略：系统可能无法及时处理如此大规模的内存分配请求，特别是在短时间内创建大量内存映射时。
超时机制：默认的300秒超时时间对于超大内存系统可能不足，特别是当系统需要处理TB级内存时。

解决方案

针对这些问题，stress-ng项目已经实施了以下改进：

锁机制优化：最新版本(V0.18.06+)将锁的实现改为共享页面模式，显著提高了锁资源的利用率。现在支持最多2×STRESS_PROCS_MAX个并发锁。
超时时间调整：对于高内存系统，建议适当增加测试的超时时间，特别是malloc测试可能需要数小时才能完成。
版本升级：强烈建议用户升级到stress-ng V0.18.06或更高版本，该版本专门针对高内存系统进行了优化。