TransformerEngine中分组线性层的实现选择与性能考量

2025-07-01 04:53:20作者：卓炯娓

背景介绍

在TransformerEngine项目中，分组线性层(Group Linear)是一种重要的计算模式，特别是在混合专家(MoE)模型中应用广泛。MoE模型如Mixtral 8x7B、8x22B、Qwen2-57B-A14B和DeepSeek v2等都大量使用了这种结构。

目前TransformerEngine采用了多流(multi-stream)方式实现分组线性层，而没有使用批处理矩阵乘法(batch GEMM)或分组矩阵乘法(group GEMM)API，这背后有着深刻的性能考量。

批处理矩阵乘法虽然理论上可以同时处理多个矩阵运算，但它要求所有运算的矩阵尺寸必须相同。在实际的MoE模型中，不同专家处理的输入尺寸可能存在差异，这使得batch GEMM无法满足需求。

分组矩阵乘法理论上更适合处理不同尺寸的矩阵运算，但目前存在两个主要实现路径：

cublasGemmGroupedBatchedEx API：这是NVIDIA官方提供的分组矩阵乘法接口，但存在两个问题：
- 性能表现不如多流实现
- 目前尚不支持FP8计算，这对追求极致性能的场景是个硬伤
Cutlass实现：这是一个备选方案，但经过对主流MoE模型GEMM尺寸的评估测试，发现多流调用cuBLASLt在大多数情况下仍能提供更好的性能表现。

TransformerEngine团队经过大量测试验证，最终选择了多流实现方案，主要原因包括：

虽然当前选择了多流实现，但团队仍将持续关注分组矩阵乘法技术的发展，特别是：

一旦出现性能更优的实现方案，团队会及时将其集成到TransformerEngine中，为用户提供更好的性能体验。

登录后查看全文