IREE项目中消除冗余编码调度的优化方案

2025-06-26 09:52:51作者：董斯意

背景介绍

在IREE编译器项目中，数据平铺(data-tiling)技术在某些情况下会导致性能下降，特别是当后端不支持数据平铺时。问题的核心在于set/unset_encoding操作会被单独分派(dispatch)，形成额外的内核启动和冗余数据拷贝。本文将详细介绍IREE团队如何通过引入新的编码操作和优化流程来解决这一问题。

问题分析

当后端不支持数据平iling时，现有的实现会产生以下性能问题：

set_encoding和unset_encoding操作会被单独分派
每个分派都会导致额外的内核启动
产生冗余的数据拷贝操作
影响延迟物化(late materialization)路径的性能

解决方案架构

团队设计了一套完整的解决方案，主要包括以下几个关键步骤：

1. 引入新的编码操作

新增了两个核心操作：

flow.tensor.encode：高层级的编码操作
stream.tensor.encode：流级别的编码操作

2. 建立直接降级路径

实现了从flow.tensor.encode到stream.tensor.encode的直接降级路径，确保编码操作能够高效地在不同抽象层级间传递。

3. 转换现有分派操作

将现有的set_encoding分派操作转换为flow.tensor.encode操作，为后续优化创造条件。

4. 实现MaterializeEncoding传递

在流级别引入了MaterializeEncoding传递，位于EncodeHostTensors传递之后。该传递的核心功能包括：

执行编码特化
解析最终布局
当张量编码产生相同布局时，折叠掉冗余操作

5. 布局一致性检查

引入isSameLayout方法作为编码属性接口的一部分，用于判断编码前后布局是否发生变化，从而决定是否可以消除冗余操作。

实现细节

在实现过程中，团队遇到并解决了一些技术挑战：

亲和性属性处理：新操作需要添加到AffinityOpAttrExternalModel列表中，否则会导致亲和性分析失败。这揭示了现有架构中关于操作亲和性处理的文档不足问题。
编码取消逻辑：不仅需要处理set_encoding操作，还需要处理unset_encoding操作，特别是在GlobalOpt阶段设置的编码。
接口设计：引入了isIdentityLayout接口方法，用于判断编码是否实际改变了数据布局。