stress-ng项目中cgroup测试在Ubuntu Bionic云内核上的稳定性问题分析

2025-07-05 08:10:40作者：舒璇辛Bertina

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

问题背景

在stress-ng项目V0.18.02版本的测试过程中，发现cgroup测试用例在Ubuntu Bionic系统的4.15版本云内核上表现出不稳定的行为。这一问题在多种云平台实例上均有重现，包括Google Cloud Platform的e2-standard-2、n1-highcpu-32、t2d-standard-4实例，以及AWS的c6g.8xlarge、t3.medium、c4.large实例。

问题现象

测试过程中，cgroup测试会间歇性失败，错误信息显示为"Device or resource busy"(EBUSY)。具体表现为：

在尝试挂载cgroup文件系统时返回EBUSY错误
部分cgroup实例启动失败
测试最终返回非零退出码(2)，标记为失败状态

值得注意的是，该问题具有间歇性特征，重新运行测试有时能够通过，这表明存在某种竞态条件或资源冲突。

技术分析

从错误日志中可以观察到几个关键点：

系统使用的是cgroup v1版本
多个cgroup实例同时尝试挂载操作时出现冲突
内核版本为4.15.0-2073-gcp-fips，这是Ubuntu Bionic的云优化内核
错误发生在stress-ng的cgroup压力测试模块中

深入分析可知，当多个stress-ng进程同时尝试挂载cgroup文件系统时，内核可能会返回EBUSY错误，特别是在云环境中可能存在的资源限制或特殊的cgroup配置下。

解决方案

项目维护者Colin Ian King针对此问题提交了修复补丁，主要改进包括：

增加了对EBUSY错误的自动重试机制
增强了挂载(mount)和卸载(umount)操作的调试日志
改进了cgroup测试的健壮性

该修复通过commit 10d48d3308c004de1099887dcceee534fedde42f合并到主分支，经过验证后确认有效解决了测试不稳定的问题。

技术启示

这个案例为我们提供了几个重要的技术启示：

云环境特殊性：云平台的内核配置和资源管理可能与标准环境不同，需要特别考虑
并发控制：在多进程/多线程环境下操作文件系统挂载点时需要考虑竞态条件
错误处理：对于可能临时性失败的操作(如mount)应实现合理的重试机制
测试稳定性：压力测试工具自身的稳定性同样重要，需要能够处理各种边界条件

总结

stress-ng作为一款系统压力测试工具，其自身的稳定性直接影响到测试结果的可靠性。这次针对cgroup测试在云环境中的稳定性修复，不仅解决了特定场景下的问题，也提升了工具整体的健壮性。对于需要在云环境中进行系统压力测试的用户，建议使用包含此修复的版本，以获得更可靠的测试结果。

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

登录后查看全文

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理