Highway项目在aarch64平台上的编译问题分析与解决方案

2025-06-12 18:16:19作者：裘旻烁

Performance-portable, length-agnostic SIMD with runtime dispatch

项目地址：https://gitcode.com/GitHub_Trending/hi/highway

问题背景

Highway是Google开发的一个高性能向量计算库，旨在为不同处理器架构提供统一的向量运算接口。近期有用户在aarch64架构平台上编译Highway时遇到了编译错误，主要与bfloat16和fp16浮点类型的支持相关。

错误现象

用户在aarch64架构（ARMv8处理器）上使用GCC 9.4编译器编译Highway时，遇到了以下主要错误：

编译器报告无效的特性修饰符"bf16"，错误信息显示在target() pragma或属性中
编译器无法识别bfloat16x4_t和bfloat16x8_t类型
多个与bfloat16相关的函数调用失败

根本原因分析

经过深入分析，这个问题主要由以下几个因素导致：

编译器版本限制：用户使用的是GCC 9.4版本，而Highway库中bfloat16相关功能需要GCC 13.2及以上版本才能完全支持
硬件支持不足：用户的ARMv8处理器虽然支持基本的NEON指令集，但可能不支持bfloat16和fp16扩展指令
编译选项冲突：Highway默认尝试启用所有可能的优化特性，包括crypto、bf16、dotprod和fp16等，但用户平台并不完全支持这些特性

解决方案

针对这一问题，有以下几种可行的解决方案：

1. 禁用不支持的指令集

通过设置编译选项HWY_DISABLED_TARGETS=HWY_NEON_BF16，可以显式禁用bfloat16相关的NEON指令集优化。这是最简单直接的解决方案，适用于大多数情况。

2. 升级编译器版本

如果平台支持，可以考虑升级到GCC 13.2或更高版本，这些版本对ARM架构的bfloat16支持更加完善。

3. 修改编译目标特性

对于高级用户，可以修改Highway的编译目标特性设置，移除不支持的指令集扩展（如bf16和fp16），只保留平台确实支持的特性。

技术细节说明

bfloat16（Brain Floating Point）是一种16位浮点格式，与传统的IEEE fp16不同，它保留了与fp32相同的指数范围，但减少了尾数精度。这种格式在机器学习领域特别有用，因为它可以在保持数值范围的同时减少内存占用和带宽需求。

在ARM架构中，bfloat16支持是通过ARMv8.2-A架构引入的，并且需要特定的扩展指令集。如果硬件或编译器不支持这些特性，就会导致编译失败。

最佳实践建议

在交叉编译或针对不同目标平台编译时，应该仔细检查目标平台支持的指令集
使用-march=native编译选项可以让编译器自动检测并启用本地CPU支持的所有特性
对于生产环境，建议明确指定所需的指令集支持，而不是依赖自动检测
定期更新编译器和工具链，以获得对新硬件特性的更好支持

总结

Highway库作为高性能向量计算库，会尝试利用各种硬件特性来最大化性能。但在实际部署时，需要根据目标平台的具体情况调整编译选项。通过合理配置，可以在保证兼容性的同时获得最佳性能。对于aarch64平台上的bfloat16相关问题，最简单的解决方案是通过HWY_DISABLED_TARGETS禁用不支持的指令集。

Performance-portable, length-agnostic SIMD with runtime dispatch

项目地址：https://gitcode.com/GitHub_Trending/hi/highway

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统