首页
/ OpenXLA IREE项目中AMDGPU缩放MFMA指令的封装实现

OpenXLA IREE项目中AMDGPU缩放MFMA指令的封装实现

2025-06-26 21:01:35作者:宣利权Counsellor

背景与需求

在现代GPU计算中,矩阵融合乘法累加(MFMA)操作是提升深度学习性能的关键指令。AMD在其最新的MI-300架构中引入了一类特殊的缩放MFMA指令,专门用于处理低精度浮点数据类型,包括fp4(f4E2M1FN)、fp6(f6E2M3FN和f6E3M2FN)以及fp8(f8E4M3FN和f8E5M2)。这些指令支持两种瓦片尺寸配置:M=N=16/K=128或M=N=32/K=64。

技术挑战

现有的amdgpu.mfma操作虽然提供了MFMA的基本封装,但不完全适用于新的缩放MFMA指令,主要存在以下差异:

  1. 参数简化需求:缩放MFMA不需要abid、cbsz或blgp属性,因为这些参数在内部用于类型编码和缩放控制
  2. 块处理简化:所有缩放MFMA的block/batch/B参数固定为1,简化了指令设计
  3. 缩放因子处理:需要支持A/B矩阵各自的缩放因子,以及选择使用哪个字节的opsel参数

实现方案

指令封装设计

新的amdgpu.scaled_mfma操作针对缩放MFMA的特点进行了专门设计:

  1. 类型系统:严格遵循MLIR的类型真实性原则,缩放因子使用<4 x i8>类型表示
  2. 使用便利性:支持直接传入i8类型的缩放因子,自动转换为<4 x i8>
  3. 参数优化:移除了不必要的广播相关参数,简化了指令接口

底层实现

在LLVM层面,缩放因子实际上以i32类型传递,内部视为<4 x i8>。实现时需要注意:

  1. 类型转换:正确处理MLIR类型到LLVM类型的映射
  2. 属性处理:将opsel参数实现为属性而非操作数
  3. 常量处理:对于无缩放情况,使用0作为默认缩放值

技术影响

这一实现为构建更高层次的算子提供了基础:

  1. 性能优化:充分利用AMD GPU的低精度计算能力
  2. 抽象层级:为上层编译器提供了统一的接口
  3. 未来发展:为支持更多新型MFMA指令奠定了基础

实现细节

在具体实现中,开发团队:

  1. 复用现有MFMA的类型处理和参数转换逻辑
  2. 添加专门的缩放因子处理路径
  3. 优化属性到LLVM intrinsic的映射
  4. 确保与现有MFMA操作的兼容性

这一工作体现了OpenXLA IREE项目在硬件抽象层设计的先进理念,既保持了高层抽象的简洁性,又能够充分利用硬件特性。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
860
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
596
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K