OpenBLAS项目Windows平台AMD64到ARM64交叉编译指南

2025-06-02 14:53:59作者：段琳惟

OpenBLAS is an optimized BLAS library based on GotoBLAS2 1.13 BSD version.

项目地址：https://gitcode.com/gh_mirrors/op/OpenBLAS

背景介绍

在异构计算场景下，开发者经常需要在x86架构的Windows主机上为ARM64设备编译高性能数学库。OpenBLAS作为开源的高性能线性代数计算库，支持多平台交叉编译。本文将详细介绍如何在Windows AMD64环境下成功构建ARM64架构的OpenBLAS静态库。

环境准备

开发工具：需要安装Visual Studio 2022（Professional版验证通过），并确保已包含LLVM/clang组件（Microsoft.VisualStudio.Component.Llvm.Clang）
编译器版本：使用VS2022自带的clang-cl 16.0.5工具链
构建系统：推荐使用Ninja构建工具

详细步骤

第一步：配置交叉编译环境

打开适用于ARM64交叉编译的开发者命令行：

& 'C:\Program Files\Microsoft Visual Studio\2022\Professional\Common7\Tools\Launch-VsDevShell.ps1' -Arch arm64 -HostArch amd64

第二步：CMake配置关键参数

执行以下CMake命令生成构建系统：

cmake .. -G Ninja \
    -DCMAKE_BUILD_TYPE=Release \
    -DDYNAMIC_ARCH=0 \
    -DTARGET=ARMV8 \
    -DCMAKE_CROSSCOMPILING=ON \
    -DCMAKE_SYSTEM_NAME="Windows" \
    -DARCH=arm64 \
    -DBINARY=64 \
    -DCMAKE_SYSTEM_PROCESSOR=ARM64 \
    -DCMAKE_C_COMPILER=clang-cl \
    -DCMAKE_C_COMPILER_TARGET=arm64-pc-windows-msvc \
    -DCMAKE_ASM_COMPILER_TARGET=arm64-pc-windows-msvc

关键参数解析

编译器选择：必须使用clang-cl而非普通clang
目标架构指定：
- CMAKE_C_COMPILER_TARGET确保C代码编译为ARM64指令集
- CMAKE_ASM_COMPILER_TARGET保证汇编文件被正确解析为ARM64汇编
平台配置：
- TARGET=ARMV8指定ARMv8指令集
- DYNAMIC_ARCH=0禁用动态架构切换

第三步：执行构建

ninja

技术要点

编译器目标指定：这是交叉编译成功的关键，缺少COMPILER_TARGET参数会导致工具链默认生成x64代码
汇编处理：ARM64架构下的特殊汇编文件需要正确的目标架构标识才能被汇编器正确处理
静态库构建：通过配置参数确保生成静态库而非动态库

注意事项

确保Visual Studio已安装LLVM/clang组件
不同VS版本可能携带不同LLVM版本，建议使用较新版本
构建完成后建议进行简单的功能测试验证库的正确性

总结

通过合理配置CMake参数和使用VS提供的交叉编译工具链，开发者可以高效地在x64 Windows主机上构建ARM64架构的OpenBLAS库。这种方法不仅适用于本地开发，也可集成到CI/CD流程中实现自动化跨平台构建。

OpenBLAS is an optimized BLAS library based on GotoBLAS2 1.13 BSD version.

项目地址：https://gitcode.com/gh_mirrors/op/OpenBLAS

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

项目优选

收起

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

昇腾LLM分布式训练框架

flutter_flutter

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

ohos_react_native

React Native鸿蒙化仓库