Stress-ng项目中io-uring压力测试模块的进程阻塞问题分析

2025-07-05 14:26:12作者：范靓好Udolf

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

在Linux系统性能测试工具stress-ng的使用过程中，用户报告了一个关于io-uring压力测试模块的异常行为：当使用--io-uring参数启动多个并发实例时，测试进程在预设时间结束后无法正常退出，导致系统需要强制重启才能恢复。本文将从技术角度深入分析这一问题的成因和解决方案。

问题现象

用户在使用stress-ng进行io-uring压力测试时（命令示例：stress-ng --io-uring 50 -t 10），发现以下异常现象：

测试进程在预设的10秒运行时间结束后仍然持续运行
进程占用100% CPU资源
系统无法正常关机，必须通过硬重启恢复
该问题在Arch Linux（ZFS文件系统）和Debian Sid（ext4文件系统）上均能复现

技术分析

通过对问题场景的深入分析，我们发现问题的核心在于Linux内核的异步I/O处理机制：

不可中断睡眠状态：io-uring子进程在内核空间等待异步I/O操作完成时进入了不可中断的睡眠状态（D状态），这种状态下进程无法响应任何信号，包括终止信号。
内存压力影响：当系统内存资源紧张时，I/O操作的完成会进一步延迟，加剧了进程阻塞的情况。vmstat数据显示测试过程中存在显著的块I/O活动和内存交换行为。
进程管理机制：stress-ng的父进程在等待子进程退出时采用了超时机制，但原有的超时设置可能不足以应对io-uring操作的特殊情况。

解决方案

项目维护者通过以下改进解决了该问题：

延长等待时间：将子进程回收的等待时间延长至2分钟，为慢速I/O操作提供足够的完成时间。
优化提交路径：在io-uring的提交路径中增加了更多的yield点（commit adeda08），减少了长时间占用CPU的情况。
平衡设计：在"永远等待"和"立即放弃"之间找到了平衡点，2分钟的等待时间既考虑了实际应用场景的需求，又避免了因内核bug导致的永久阻塞。

最佳实践建议

对于使用stress-ng进行io-uring压力测试的用户，建议：

监控系统资源：测试时使用--vmstat参数监控内存和I/O状态
渐进式测试：先使用少量实例（如1个）验证系统稳定性
版本更新：确保使用包含相关修复的最新版本stress-ng
环境评估：在测试前评估系统的I/O处理能力，特别是使用ZFS等复杂文件系统时

技术启示

这个案例揭示了Linux异步I/O操作与进程管理的几个重要特性：

不可中断睡眠状态对系统管理的影响
高性能I/O操作与系统稳定性的平衡
用户态工具应对内核态阻塞的容错设计

通过这个问题的分析和解决，不仅完善了stress-ng工具的功能，也为Linux系统下的高性能I/O测试提供了有价值的实践经验。

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库