ConcurrencyKit项目在ARM架构下的内联汇编优化实践

2025-07-01 03:28:08作者：何举烈Damon

Concurrency primitives, safe memory reclamation mechanisms and non-blocking (including lock-free) data structures designed to aid in the research, design and implementation of high performance concurrent systems developed in C99+.

项目地址：https://gitcode.com/gh_mirrors/ck/ck

背景介绍

ConcurrencyKit是一个高性能并发编程库，它提供了多种并发原语和数据结构的高效实现。在ARM架构下，该库使用内联汇编来实现原子操作等关键功能，以确保最佳性能。然而，在32位ARM架构(armv7)上使用Thumb-2指令集编译时，开发者遇到了"instruction requires arm-mode"的错误提示。

问题分析

这个错误发生在使用ldrexd和strexd指令时，这些指令是ARM架构提供的独占加载和存储指令，用于实现64位原子操作。在Thumb-2模式下，这些指令的语法要求与ARM模式有所不同：

指令语法差异：在ARM模式下，ldrexd指令接受两个寄存器作为目标操作数和一个内存地址作为源操作数；而在Thumb-2模式下，语法要求更严格，必须显式指定两个目标寄存器。
编译器行为：Clang编译器在Thumb-2模式下生成代码时，对指令格式有更严格的要求，当遇到不符合Thumb-2语法的内联汇编时会报错。
兼容性问题：这个问题特别出现在32位ARM架构(armv7)上使用Thumb-2指令集编译时，而在64位ARM架构(aarch64)上则不会出现。

解决方案

经过深入分析，ConcurrencyKit项目组提出了以下解决方案：

修改内联汇编语法：调整ldrexd和strexd指令的语法格式，使其在Thumb-2模式下也能正确工作。
寄存器分配优化：确保指令使用的寄存器符合Thumb-2模式下的约束条件。
条件编译支持：通过预处理器宏区分不同编译模式，确保代码在各种环境下都能正确编译。

技术实现细节

在具体实现上，主要修改了以下几方面：

ldrexd指令：从原来的ldrexd %0, [%1]格式修改为显式指定两个寄存器的格式，确保在Thumb-2模式下也能正确解析。
strexd指令：同样调整了语法格式，明确指定所有操作数，避免编译器在Thumb-2模式下产生歧义。
寄存器约束：增加了对寄存器使用的约束条件，确保生成的代码符合Thumb-2指令集的要求。

实际效果验证

该解决方案在Termux环境下的32位ARM设备上进行了验证：

编译测试：修改后的代码能够顺利通过编译，不再出现"instruction requires arm-mode"的错误。
功能测试：64位原子操作功能在各种场景下均能正常工作，性能表现符合预期。
兼容性测试：修改后的代码在ARM模式和Thumb-2模式下都能正确编译和运行。

经验总结

通过这个案例，我们可以总结出以下几点经验：

跨模式兼容性：在为ARM架构编写内联汇编时，必须同时考虑ARM和Thumb-2模式的不同要求。
编译器差异：不同编译器(如GCC和Clang)对指令语法的处理可能存在差异，需要进行充分测试。
环境多样性：在移动设备等多样化的环境中，需要考虑各种可能的编译配置和运行环境。

这个问题的解决不仅提升了ConcurrencyKit在32位ARM设备上的兼容性，也为其他需要在ARM架构下实现高性能并发控制的开发者提供了有价值的参考。

Concurrency primitives, safe memory reclamation mechanisms and non-blocking (including lock-free) data structures designed to aid in the research, design and implementation of high performance concurrent systems developed in C99+.

项目地址：https://gitcode.com/gh_mirrors/ck/ck

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统