IREE项目中动态维度分块处理的代码生成问题分析

2025-06-26 08:07:59作者：翟江哲Frasier

问题背景

在IREE编译器项目中，当处理具有动态维度的矩阵乘法运算时，代码生成阶段遇到了一个关键性问题。具体表现为在ROCM后端上执行动态维度分块处理时，编译器无法正确生成代码，导致验证失败。

问题现象

编译器在处理一个特殊的矩阵乘法运算时，出现了以下错误信息：

'memref.copy'操作对全局资源的写入操作被限制在工作组分发的上下文中
函数工作组分发验证失败

该问题出现在一个包含动态维度的矩阵运算中，其中输入张量大小为?x14336x4096，数据类型为f16和f32混合精度。

技术分析

编码处理流程

在编译过程中，编码(encoding)信息在编码物化阶段后全部消失，尺寸/偏移/步长信息在加载/存储操作中得到解析。问题实际上出现在后续的代码生成阶段，特别是在处理动态维度分块时。

关键问题点

编码设置不当：编译器错误地为非收缩运算的linalg通用操作设置了填充(padding)，而实际上只应在矩阵乘法相互连接时才设置结果填充。
动态维度处理：当处理动态维度时，编译器未能正确地将工作组分发与内存访问模式对齐，导致验证失败。
ROCM后端限制：ROCM后端对全局内存访问有特定限制，特别是在工作组分发上下文中，而当前生成的代码违反了这些限制。

解决方案

最小化复现

通过简化问题，可以复现出在block-dynamic-dimensions传递中出现的问题。最小复现代码展示了动态维度处理的核心问题：

func.func @example(%input1 : tensor<?x14336xf32>, %input2 : tensor<?x14336xf32>) {
  // 动态维度处理
  %dim = hal.interface.constant.load ordinal(0) : i32
  %cast = arith.index_castui %dim : i32 to index
  %validated = util.assume.int %cast<umin=128, umax=524160, udiv=128> : index
  
  // 张量操作
  %output = tensor.empty(%validated) : tensor<?x14336xf16>
  %result = linalg.generic {
    // 计算逻辑
  } -> tensor<?x14336xf16>
  
  // 存储操作失败点
  flow.dispatch.tensor.store %result, %buffer
  return
}