Stress-ng项目中vm stressor内存分配失败问题分析与解决方案

2025-07-05 10:26:18作者：宗隆裙

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

问题背景

在Linux系统测试过程中，用户在使用stress-ng工具进行内存压力测试时，发现vm stressor（虚拟内存压力测试模块）频繁出现内存分配失败的情况。测试环境配置为Granite Rapids CPU、128GB内存的服务器，运行Ubuntu 24.04.2系统与6.8内核版本。

现象描述

测试命令执行时，系统报告多个vm stressor实例无法完成内存映射操作：

stress-ng: info: [2782715] dispatching hogs: 192 vm
stress-ng: info: [2782927] vm: gave up trying to mmap 1.3M after 100 attempts, errno=12 (Cannot allocate memory)

错误表现为：

多个vm stressor实例在尝试分配约1.3MB内存时失败
系统返回ENOMEM（错误码12）无法分配内存
即使增加物理内存到256GB或添加256GB交换空间，问题依然存在

技术分析

内存分配机制

stress-ng的vm stressor默认会分配256MB总内存。在192个实例的情况下，每个实例分配：

理论值：256MB/192 ≈ 1.3MB（1398101字节）
实际分配：调整为最接近的页大小（4KB），实际为1396736字节（341页）

问题根源

经过深入分析，发现问题主要源于两个因素：

内存阈值设置过高：测试使用了--oom-avoid-bytes 10%参数，当系统内存较大时，10%的阈值（在128GB系统中约12.8GB）会导致内存压力测试过早触发OOM保护机制。
重试机制不足：原始代码在100次重试失败后直接放弃，没有尝试减少分配大小或更灵活的内存分配策略。

解决方案

项目维护者Colin Ian King提出了以下改进措施：

代码优化（提交2b57daf）：
- 改进了低内存处理逻辑
- 增加了分配大小自动缩减机制
- 确保只有在完全无空闲页时才会放弃分配
参数调整建议：
- 对于大内存系统，建议将--oom-avoid-bytes从10%降低到3%
- 示例优化命令：
```
stress-ng --aggressive --verify --oom-avoid-bytes 3% --timeout 1550 --vm 0
```

实践建议

监控与诊断：
- 使用--vmstat 1参数监控内存使用情况
- 添加-v和--timestamp参数获取详细日志和时间戳
- 通过dmesg检查内核日志
系统配置：
- 对于超过100GB内存的系统，OOM避免阈值不应超过3-5%
- 考虑使用cgroups限制测试内存范围
版本选择：
- 确保使用包含修复的stress-ng版本（0.19.01及以上）