SageAttention 项目使用教程

2026-01-30 05:19:57作者：舒璇辛Bertina

Quantized Attention that achieves speedups of 2.1-3.1x and 2.7-5.1x compared to FlashAttention2 and xformers, respectively, without lossing end-to-end metrics across various models.

项目地址：https://gitcode.com/gh_mirrors/sa/SageAttention

1. 项目的目录结构及介绍

SageAttention 项目的目录结构如下：

SageAttention/
├── assets/                   # 存储项目相关资源文件
├── bench/                    # 性能测试脚本和代码
├── csrc/                     # 源代码目录，包含C++实现的内核
├── example/                  # 示例代码，展示如何在不同模型中使用SageAttention
├── sageattention/            # Python包装和接口
│   ├── __init__.py
│   ├── sageattn.py           # SageAttention的主要实现
│   ├── sageattn_qk_int8_pv_fp16_triton.py
│   ├── sageattn_qk_int8_pv_fp16_cuda.py
│   ├── sageattn_qk_int8_pv_fp8_cuda.py
│   ├── sageattn_qk_int8_pv_fp8_cuda_sm90.py
│   └── sageattn_varlen.py
├── .gitignore                # 指定git忽略的文件
├── LICENSE                   # 项目许可证文件
├── README.md                 # 项目说明文件
├── setup.py                  # Python包的安装脚本
└── ...

详细介绍：

assets/: 存储项目所需的各种资源文件，如数据集、预训练模型等。
bench/: 包含用于性能测试的脚本，可以对比SageAttention与其他方法的性能。
csrc/: 包含C++源代码，实现了项目中的核心算法。
example/: 提供了如何在不同模型中集成和替换默认注意力机制的示例代码。
sageattention/: 包含了Python接口和实现类，是使用SageAttention的核心模块。
.gitignore: 指定了Git应该忽略的文件，以避免将不必要的文件提交到仓库。
LICENSE: 项目的许可证文件，本项目采用Apache-2.0协议。
README.md: 项目的说明文件，包含了项目的基本信息和使用说明。
setup.py: Python包的安装脚本，用于安装项目作为Python包。

2. 项目的启动文件介绍

在SageAttention项目中，启动文件主要是example/目录下的各个.py文件。以cogvideox-2b.py为例，这是使用SageAttention加速视频生成模型CogVideoX的一个示例。

启动文件的基本结构如下：

import torch
import torch.nn.functional as F
from sageattention import sageattn

# 将SageAttention设置为默认的注意力机制
F.scaled_dot_product_attention = sageattn

# 模型初始化和训练/推理代码
# ...

# SageAttention的使用通常涉及将q, k, v输入到sageattn函数中
attn_output = sageattn(q, k, v, tensor_layout='HND', is_causal=False)

# ...

启动步骤：

确保已经安装了SageAttention。
使用python cogvideox-2b.py --compile --attention_type sage命令启动脚本。

3. 项目的配置文件介绍

SageAttention项目的配置文件主要是setup.py，该文件用于配置和安装Python包。

配置文件的基本内容如下：

from setuptools import setup, find_packages

setup(
    name="sageattention",
    version="1.0.6",
    packages=find_packages(),
    # ...
)

配置步骤：

在项目根目录下运行python setup.py install或pip install -e .来安装包。
如果需要安装特定版本的依赖，请确保在setup.py中正确指定。

通过以上步骤，用户可以快速上手使用SageAttention项目，并根据自己的需求进行配置和优化。

SageAttention

Quantized Attention that achieves speedups of 2.1-3.1x and 2.7-5.1x compared to FlashAttention2 and xformers, respectively, without lossing end-to-end metrics across various models.

项目地址：https://gitcode.com/gh_mirrors/sa/SageAttention

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

336

178

SageAttention 项目使用教程

1. 项目的目录结构及介绍

详细介绍：

2. 项目的启动文件介绍

启动步骤：

3. 项目的配置文件介绍

配置步骤：

热门内容推荐

最新内容推荐

项目优选

SageAttention 项目使用教程

1. 项目的目录结构及介绍

详细介绍：

2. 项目的启动文件介绍

启动步骤：

3. 项目的配置文件介绍

配置步骤：

相关内容推荐

热门内容推荐

最新内容推荐

项目优选