OpenXLA IREE中多输入矩阵乘法的泛化设计

2025-06-26 14:22:14作者：宣聪麟

背景与需求

在OpenXLA IREE编译器项目中，矩阵乘法运算(MMA)是GPU代码生成的核心操作之一。随着深度学习模型复杂度的提升，出现了对带缩放因子的矩阵乘法运算的需求，即形如acc := acc + (lhs * broadcast(scale)) x (rhs * broadcast(scale))的运算模式。

现有的iree_gpu.multi_mma操作在设计上存在局限性，它只能处理固定的左右输入操作数(lhs和rhs)，无法灵活支持多个输入操作数的情况。这在实现带缩放因子的矩阵乘法时显得不够灵活。

技术方案设计

为了解决这一问题，IREE社区提出了对iree_gpu.multi_mma操作进行泛化的设计方案：

输入操作数泛化：将固定的lhs和rhs输入改为可变数量的inputs参数，使其能够接受任意数量的输入张量。
置换规则扩展：原有的lhs_perm和rhs_perm置换规则将扩展为input_perms，这是一个数组的数组结构，可以分别为每个输入操作数指定独立的置换规则。
操作重定位：考虑到该操作的通用性，计划将其从iree_gpu命名空间迁移到更合适的模块中，如iree_codegen或LinalgExt。

实现考量

在实现这一泛化设计时，有几个关键的技术考量点：

操作描述符接口：原有的mma_attr属性需要重命名为更具通用性的名称，如operator_descriptor，以反映其更广泛的用途。
代码生成兼容性：新的接口设计需要保持与现有代码生成管道的兼容性，确保不影响已有的优化流程。
性能优化：多输入支持不应显著增加运行时开销，需要在设计时就考虑如何高效处理多个输入操作数。

技术影响

这一改进将为IREE带来以下优势：

表达力增强：能够支持更复杂的矩阵运算模式，特别是那些需要额外缩放因子的运算。
代码复用：统一的接口可以减少特殊情况下所需的定制化操作数量。
未来扩展性：为将来可能出现的其他多输入矩阵运算模式提供了基础支持。

总结

OpenXLA IREE中对多输入矩阵乘法操作的泛化设计，体现了编译器中间表示(IR)不断演进以适应新计算需求的过程。这一改进不仅解决了当前带缩放因子矩阵乘法的实现问题，还为未来更复杂的运算模式奠定了基础，展现了IREE项目在深度学习编译器领域的持续创新。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。