Stress-ng项目中的io-uring压力测试在AWS特定实例上的挂起问题分析

2025-07-05 11:45:08作者：裴锟轩Denise

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

问题背景

在AWS云环境的特定实例类型上，使用stress-ng工具进行io-uring压力测试时会出现系统挂起现象。这个问题主要出现在AWS的c3.xlarge和c4.large实例上，操作系统为Ubuntu Jammy、Mantic或Noble版本。

受影响环境特征

经过测试验证，该问题具有以下特征：

硬件平台：仅影响基于Intel Xeon E5-2666 v3(Haswell)的c4.large和基于Intel Xeon E5-2680 v2(Ivy Bridge)的c3.xlarge实例
操作系统：Ubuntu Jammy(5.15.0-112-generic内核)、Mantic和Noble版本
其他AWS实例类型(包括c5n.large、i3.metal、m5a.large等)均不受影响

问题现象

当在受影响环境中执行io-uring压力测试时，系统会出现以下症状：

测试进程无法正常终止，最终因超时被强制结束
系统日志中出现大量任务阻塞超过120秒的警告信息
系统虽然未完全冻结，但变得无响应，无法执行任何命令
必须重启实例才能恢复正常运行

技术分析

从系统日志和测试数据来看，问题主要涉及以下技术层面：

I/O子系统阻塞：日志显示多个关键系统进程(jbd2、ext4相关进程、writeback工作队列等)都进入了不可中断的睡眠状态(D状态)，表明存在I/O子系统层面的阻塞。
锁竞争问题：调用栈中频繁出现rwsem_down_write_slowpath和down_write等锁操作，暗示可能存在锁竞争导致的死锁情况。
文件系统交互：大量ext4文件系统相关操作(如ext4_mkdir、ext4_truncate等)被阻塞，说明问题与ext4文件系统的I/O处理流程密切相关。
io-uring特性：io-uring作为Linux的高性能异步I/O接口，其工作线程(iou-wrk)也陷入了等待提交队列完成的状态。

解决方案

项目维护者通过代码分析定位到问题根源，并提交了修复方案：

修复措施：在io-uring压力测试模块中增加了对直接I/O(direct I/O)的支持，避免了缓存层可能带来的阻塞问题。
验证结果：修复后的版本在原先出现问题的c3.xlarge和c4.large实例上测试通过，不再出现挂起现象。

经验总结

这个案例为我们提供了几个重要的技术经验：

硬件平台特性可能对I/O性能测试产生意想不到的影响，特别是在虚拟化环境中。
文件系统缓存层在高压力场景下可能成为性能瓶颈，直接I/O在某些情况下是更可靠的选择。
系统监控工具(如vmstat)对于诊断I/O相关问题非常有价值。
压力测试工具需要针对不同硬件平台和内核版本进行充分验证。

这个问题也提醒我们，在云环境中进行系统级测试时，需要特别关注实例类型和内核版本的组合可能带来的特殊行为。

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

登录后查看全文

热门内容推荐

1 解锁编程技能的实践之旅：从零构建你的技术世界 2 技术实践探索：从零开始构建核心系统的实践指南 3 build-your-own-x：编程探险家的技术发现之旅 4 亲手锻造技术引擎：从0到1构建核心系统的实践指南 5 技术解构与实践指南：从实现原理到创新应用的build-your-own-x探索之旅 6 从零构建技术实践指南：探索build-your-own-x项目的学习价值

最新内容推荐

跨系统应用融合：APK Installer实现Windows环境下安卓应用运行的技术路径探索如何用OpCore Simplify构建稳定黑苹果系统？掌握这3大核心策略 ComfyUI-LTXVideo实战攻略：3大核心场景的视频生成解决方案告别3小时抠像噩梦：AI如何让人人都能制作电影级视频 Anki Connect：知识管理与学习自动化的API集成方案 Laigter法线贴图生成工具零基础实战指南：提升2D游戏视觉效率全攻略如何用智能助手实现高效微信自动回复？全方位指南 3步打造高效游戏自动化工具：从入门到精通的智能辅助方案掌握语音分割：从入门到实战的完整路径开源翻译平台完全指南：从搭建到精通自托管翻译服务

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用