FEX-Emu项目中AVX128指令的SVE优化实现

2025-06-30 11:09:04作者：凤尚柏Louis

在FEX-Emu项目的最新开发中，团队针对AVX128指令集中的vpgatherdd/vgatherdps指令进行了重要的性能优化。本文将深入分析这一优化背后的技术细节及其对模拟器性能的提升。

背景与问题分析

AVX128指令集中的gather指令（vpgatherdd/vgatherdps）在ARM架构上运行时，原本会回退到ASIMD实现方式。这种实现方式效率较低，无法充分利用现代ARM处理器的先进特性。特别是在处理256位目标操作数和256位源操作数时，性能瓶颈更为明显。

技术解决方案

开发团队通过引入SVE（Scalable Vector Extension）技术来优化这一过程。具体实现包括：

对于128位版本，直接使用SVE的QPS变体进行gather加载操作，这显著提升了指令执行效率。
对于更复杂的256位目标/源操作数情况，解决方案需要先将地址元素符号扩展到64位，生成512位的地址向量。虽然这种处理方式不如128位版本高效，但相比原来的ASIMD回退方案，性能提升仍然非常显著。

实现细节

在代码实现上，开发团队通过以下关键提交完成了这一优化：

首先重构了基础框架，为SVE优化做好准备
然后实现了128位版本的直接SVE优化
最后处理了256位版本的复杂情况，通过地址扩展实现兼容

性能影响

这一优化使得FEX-Emu在ARM平台上模拟x86的gather指令时能够获得更好的性能表现。特别是在处理大规模数据收集操作时，性能提升更为明显。虽然256位版本的优化不如128位版本彻底，但仍然带来了可观的性能改进。

总结

FEX-Emu团队通过巧妙地利用ARM平台的SVE扩展指令集，成功优化了原本性能较差的AVX128 gather指令模拟。这一工作展示了模拟器开发中针对特定指令进行深度优化的价值，也为后续其他指令的优化提供了参考范例。随着SVE在更多ARM处理器上的普及，这类优化将带来越来越显著的整体性能提升。

FEX

A fast usermode x86 and x86-64 emulator for Arm64 Linux

项目地址：https://gitcode.com/gh_mirrors/fe/FEX

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

229

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

451

418

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

C++

642

1.27 K

FEX-Emu项目中AVX128指令的SVE优化实现

背景与问题分析

技术解决方案

实现细节

性能影响

总结

热门内容推荐

最新内容推荐

项目优选

FEX-Emu项目中AVX128指令的SVE优化实现

背景与问题分析

技术解决方案

实现细节

性能影响

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选