TVM项目中Relax模块MergeCompositeFunctions的边界条件问题分析

2025-05-19 18:01:28作者：明树来

在深度学习编译器TVM的Relax模块中，MergeCompositeFunctions是一个重要的优化过程，它负责将标记为Composite的函数合并到调用它们的函数中。然而，在实际使用过程中，开发者发现了一些边界条件下的异常行为，这些行为揭示了当前实现中的一些设计缺陷。

问题现象

当IRModule中包含多个Relax函数时，MergeCompositeFunctions转换会出现两种不同类型的错误：

变量未分组错误：当模块中存在非主函数（如示例中的main2函数）时，系统会抛出"Variable could not be found in any group"的错误。这表明优化器未能正确处理模块中的所有函数。
重复分组错误：在初步修复后，又出现了"Check failed: (!group_map.count(obj))"的错误，这揭示了系统在处理跨函数共享对象时的缺陷。

MergeCompositeFunctions的核心任务是将被标记为Composite的函数内联到调用它们的函数中。这个过程主要分为两个阶段：

在原始实现中，这两个阶段处理的函数范围不一致，导致了第一个错误。具体来说，CompositeGroupBuilder只处理名为"main"的函数，而MakeGroupedFunctions则尝试处理模块中的所有Relax函数。

第一个问题的根本原因是函数选择逻辑的不一致。优化器应该统一处理所有需要优化的函数，而不是假设只有"main"函数需要处理。

第二个问题则更为微妙，它涉及到TVM中对象重用机制的一个边界情况。在TVM的Relax表达式中，不依赖任何变量的表达式（如静态形状表达式ShapeExpr）可能会在多个函数间共享同一个底层C++对象。当优化器尝试为这些共享对象创建分组时，就会发生冲突。

针对这些问题，开发者提出了分阶段的解决方案：

统一函数处理范围：确保CompositeGroupBuilder和MakeGroupedFunctions处理相同的函数集合，即模块中所有既没有kComposite也没有kCodegen属性的Relax函数。
优化对象收集策略：避免使用PostOrderVisit过度收集ShapeExpr对象，改为更精确的变量级缓存机制。虽然这不能完全消除所有边界情况下的问题，但可以解决大多数实际使用场景中的问题。