Stress-ng项目在ARM64架构下的af-alg压力测试问题分析与解决

2025-07-05 04:45:37作者：尤辰城Agatha

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

问题背景

Stress-ng是一个强大的系统压力测试工具，其中的af-alg模块用于测试Linux内核的加密算法接口。近期在ARM64架构的ThunderX Cavium硬件上运行该测试时，发现了一个异常现象：测试无法正常终止，部分子进程会变成僵尸进程。这一问题在Ubuntu Bionic（5.4内核）和Focal（5.15内核）的HWE版本中均有出现，但在虚拟化环境中却无法复现。

问题现象

当在ARM64裸金属服务器上执行以下命令时：

./stress-ng -v -t 5 --af-alg 4 --af-alg-ops 3000 --ignite-cpu --syslog --verbose --verify --oomable

测试会出现以下异常表现：

部分子进程变为僵尸状态（Z+）
父进程卡在wait4系统调用
系统日志中仅显示"NET: Registered protocol family 38"信息
无法通过Ctrl+C终止测试

技术分析

通过strace跟踪发现，异常进程停留在SIGALRM信号处理循环中。进一步分析表明：

原子锁问题：问题首次出现在引入ARM架构yield指令的提交中，这表明与ARM架构的原子操作实现有关。
NUMA架构影响：问题仅在ARM64 NUMA系统上出现，而在虚拟化环境（非NUMA）中正常，暗示问题与缓存一致性相关。
内核交互：测试过程中触发了内核加密子系统，但未产生明显的错误日志，表明问题可能发生在用户空间与内核空间的交互边界。

解决方案演进

开发团队尝试了多种解决方案：

初始修复：移除ARM特定的yield指令，回退到通用的shim_sched_yield。
强制终止机制：添加5秒超时强制终止逻辑，虽然能防止挂起，但产生了大量"JMP out"消息，不是理想方案。
最终方案：完全禁用ARM架构的原子自旋锁，回退到更稳定的pthread自旋锁实现。这一修改在多个内核版本（5.4、5.15、6.8、6.10）上验证有效。

技术深度解析

ARM架构（特别是NUMA系统）的原子操作实现有其特殊性：

内存一致性模型：ARM采用弱一致性内存模型，需要显式的内存屏障指令保证多核间的数据可见性。
缓存一致性：NUMA系统中，跨节点的缓存同步可能引入额外延迟，影响自旋锁的性能和正确性。
指令重排序：ARM处理器允许更多的指令重排序，需要谨慎处理同步原语。

这些特性使得在ARM架构上实现高效的原子操作比x86架构更具挑战性。Stress-ng最终选择放弃针对ARM的优化实现，转而使用更稳定但性能稍逊的pthread锁，这是权衡正确性与性能后的合理选择。

实际影响与价值

这一问题的解决不仅修复了Stress-ng工具本身的问题，还带来了额外价值：

硬件兼容性提升：增强了工具在ARM服务器级硬件上的可靠性。
内核问题发现：在测试过程中意外发现了Linux内核加密子系统的潜在问题（LP: #2067527），展示了压力测试工具的价值。
架构差异认知：提醒开发者在不同架构上实现同步原语时需要特别注意内存模型和缓存一致性问题。

最佳实践建议

基于这一案例，我们建议：

在ARM服务器上进行压力测试时，关注NUMA架构带来的特殊影响。
对于关键的系统调用测试，建议结合strace和内核日志进行综合分析。
在跨架构开发时，同步原语的实现需要针对不同架构进行充分验证。

Stress-ng团队对这一问题的快速响应和解决方案展示了开源社区解决复杂系统问题的能力，也为ARM服务器生态的稳定性做出了贡献。

This is the stress-ng upstream project git repository. stress-ng will stress test a computer system in various selectable ways. It was designed to exercise various physical subsystems of a computer as well as the various operating system kernel interfaces.

项目地址：https://gitcode.com/gh_mirrors/st/stress-ng

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

deepin linux kernel

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook