基于CUTLASSS的Gather/Scatter与分组GEMM融合技术解析

2025-05-31 21:30:08作者：卓艾滢Kingsley

CUDA Templates and Python DSLs for High-Performance Linear Algebra

项目地址：https://gitcode.com/GitHub_Trending/cu/cutlass

背景介绍

在深度学习模型训练过程中，经常会遇到需要处理特殊形状网络层的情况。这些网络层往往需要进行大量的数据收集(Gather)和分散(Scatter)操作，特别是在处理小型且不规则形状的矩阵时。本文将以NVIDIA CUTLASS库为基础，探讨如何高效实现Gather/Scatter操作与分组GEMM(矩阵乘法)的融合技术。

技术挑战

在实际应用中，我们可能会遇到这样的计算场景：需要将多个小型矩阵(如32x8)与另一组矩阵(8xN)相乘后累加。传统做法需要单独处理每个矩阵乘法，效率较低。理想的方式是将这些操作融合，一次性完成所有矩阵乘法。

CUTLASS解决方案

1. 分组GEMM与Gather/Scatter融合

CUTLASS提供了两种关键功能：

分组GEMM：允许并行执行多个不同大小的矩阵乘法
Gather/Scatter融合：将数据收集/分散操作与矩阵乘法结合

通过将这两种技术结合，可以显著提升计算效率。具体实现时需要注意：

在参数结构中添加Gather/Scatter索引指针
修改内核操作符以确定每个线程块处理的索引
将索引传递到内核底层

2. 针对不同架构的优化

对于Ampere架构(SM80/SM89)与Hopper架构，实现方式有所不同：

Hopper架构有专门的Gather/Scatter GEMM扩展
Ampere架构需要通过自定义索引实现类似功能

3. 边界条件处理

当使用Tensor Core时，需要注意：

最小M维度为16(由张量核心指令决定)
如果收集的M维度不满足要求，需要外部填充
填充操作应在设置参数结构前完成

高级功能实现

1. 带缩放因子的Gather/Scatter

可以在epilogue阶段加入广播缩放因子：

从A收集行，分散到D
每个分散的D行乘以从向量中收集的缩放因子
需要定制epilogue_with_broadcast等组件以支持Gather/Scatter索引

2. 浮点精度处理

使用半精度浮点(fp16)时需注意：

数值范围有限(最大2048)
超过2048后数值会饱和
不同填充函数(TensorFillSequential/BlockFillSequential)处理方式略有不同

最新进展

CUTLASS 3.5版本新增了基于Ampere架构的Gather/Scatter卷积核示例，为这类特殊计算模式提供了更高效的实现参考。开发者可以基于此示例进行二次开发，满足各种自定义网络层的需求。

总结

通过CUTLASS提供的Gather/Scatter与分组GEMM融合技术，开发者可以高效处理各种特殊形状的神经网络层。关键在于合理设计数据布局、线程分配以及边界条件处理。随着CUTLASS的持续更新，这类特殊计算模式的性能还将不断提升。

CUDA Templates and Python DSLs for High-Performance Linear Algebra

项目地址：https://gitcode.com/GitHub_Trending/cu/cutlass

登录后查看全文

项目优选

收起

deepin linux kernel

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

昇腾LLM分布式训练框架

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。