TransformerEngine中Flash Attention的qkvpacked格式使用指南

2025-07-01 04:37:27作者：冯爽妲Honey

TransformerEngine

A library for accelerating Transformer models on NVIDIA GPUs, including using 8-bit floating point (FP8) precision on Hopper and Ada GPUs, to provide better performance with lower memory utilization in both training and inference.

项目地址：https://gitcode.com/gh_mirrors/tr/TransformerEngine

理解qkvpacked格式

在TransformerEngine项目中，Flash Attention提供了一种高效的注意力机制实现方式。其中flash_attn_varlen_qkvpacked_func函数接受一个特殊的qkv张量格式，该张量将查询(Q)、键(K)和值(V)三个矩阵打包在一起，形状为(total, 3, nheads, headdim)，其中total表示批次中所有token的总数。

迁移到DotProductAttention类

当从底层函数迁移到更高级的DotProductAttention类时，需要注意几个关键点：

1. qkv_format的选择

正确的格式应该是thd，其中：

t：批次中所有token的总数（注意文档中之前的描述有误）
h：注意力头的数量
d：每个头的维度

2. 注意力掩码设置

对于非因果注意力(non-causal attention)，应使用attn_mask_type=padding。即使不需要实际的注意力掩码，也需要通过cu_seqlens_q和cu_seqlens_kv参数提供序列长度信息，这有助于后端了解每个序列的实际长度。

3. 序列长度参数

cu_seqlens_q和cu_seqlens_kv应该是累积序列长度。例如，对于一个包含3个序列的批次，长度分别为3、2和4，则累积序列长度应为[0, 3, 5, 9]。

如果序列之间没有填充（即token是连续排列的，没有PAD token），则不需要指定cu_seqlens_q_padded或cu_seqlens_kv_padded参数。

实际应用建议

在实际应用中，建议遵循以下最佳实践：

确保输入张量的形状严格符合thd格式要求
即使不需要掩码，也要提供序列长度信息
对于非填充序列，可以省略_padded参数
考虑使用项目提供的单元测试作为参考实现

通过正确配置这些参数，可以充分利用TransformerEngine中Flash Attention的高效实现，同时保持代码的清晰性和可维护性。

TransformerEngine

A library for accelerating Transformer models on NVIDIA GPUs, including using 8-bit floating point (FP8) precision on Hopper and Ada GPUs, to provide better performance with lower memory utilization in both training and inference.

项目地址：https://gitcode.com/gh_mirrors/tr/TransformerEngine

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

ohos_react_native

React Native鸿蒙化仓库

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。

仓颉编程语言测试用例。

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system