Stress-ng项目在Azure机密虚拟机上的SIGBUS压力测试问题分析

2025-07-05 00:01:05作者：裘晴惠Vivianne

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

问题背景

Stress-ng是一款功能强大的系统压力测试工具，能够模拟各种系统负载场景。近期在Azure机密虚拟机（Confidential VM）上运行时，发现其sigbus压力测试模块会出现挂起现象，导致测试超时。该问题出现在Azure Standard_DC2as_v5机型上，内核版本包括azure-5.15-fde、azure-fde、azure-6.8等多个版本。

问题现象

当在Azure机密虚拟机上执行以下命令时：

sudo ./stress-ng -v -t 5 --sigbus 1 --sigbus-ops 3000 --ignite-cpu --syslog --verbose --verify --oomable

测试会卡住，无法正常完成。系统日志中会出现"安全限制: stress-ng: debugfs access is restricted"的提示信息。通过strace跟踪发现，进程陷入了SIGALRM信号处理的循环中。

技术分析

经过深入排查，发现问题源于stress-ng项目中一个针对x86架构的特殊处理：通过设置EFLAGS寄存器中的AC（Alignment Check）位来触发未对齐内存访问的SIGBUS信号。

具体来说，stress-ng会在x86平台上执行以下操作：

通过汇编指令设置EFLAGS的AC位（0x00040000）
故意进行未对齐的内存访问
预期会产生SIGBUS信号
在信号处理程序中清除AC位

然而在Azure机密虚拟机上，这一机制出现了异常。通过简化测试程序验证，发现设置AC位后进行未对齐访问会导致虚拟机完全挂起，而非按预期产生SIGBUS信号。

解决方案

考虑到这是Azure虚拟机模拟器的一个潜在问题，stress-ng项目决定针对Azure环境禁用这一特殊功能。具体修改包括：

移除了通过设置AC位触发SIGBUS的代码路径
保留了其他生成SIGBUS信号的方法
增加了更严格的超时检查，防止类似挂起情况

技术启示

这一案例揭示了几个重要的技术要点：

虚拟化环境差异性：即使在x86架构上，不同虚拟化平台的实现细节可能存在差异，特别是对一些较少使用的处理器特性的支持。
防御性编程：系统工具在面对硬件/虚拟化层特性时，需要具备足够的容错和回退机制。
信号处理复杂性：涉及处理器标志位和信号处理的代码需要特别谨慎，应当包含完备的超时和错误恢复逻辑。
测试覆盖度：云环境下的系统测试需要考虑不同虚拟化平台的特性差异。

总结

通过对stress-ng在Azure机密虚拟机上SIGBUS测试问题的分析，我们不仅解决了具体的兼容性问题，更深入理解了虚拟化环境下处理器特性模拟的复杂性。这一经验对于开发跨平台系统工具具有重要参考价值，提醒开发者在利用特定处理器特性时需要充分考虑不同环境的支持情况。

stress-ng

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理