CUTLAS项目中Hopper与Ampere架构的EVT尾处理差异分析

2025-05-31 03:10:17作者：鲍丁臣Ursa

背景概述

在NVIDIA的CUTLAS项目中，Epilogue Visitor Thread (EVT)机制是处理矩阵运算后尾处理阶段的重要组件。本文主要探讨Hopper架构与Ampere架构在EVT实现上的关键差异及其背后的设计考量。

架构实现差异

Ampere架构实现特点

在Ampere及之前的架构中，EVT机制采用了完全基于访问者(Visitor)的设计模式：

访客对象完全负责所有内存操作，包括加载、计算和存储
目标指针(dst ptr)作为访客对象的成员变量存在
访客对象直接负责将最终结果写入全局内存
即使操作名为VisitorAuxStore，实际存储行为仍由访客控制

这种设计实现了高度解耦，使尾处理逻辑完全依赖于EVT机制，提供了良好的灵活性和扩展性。

Hopper架构实现特点

Hopper架构对EVT实现进行了显著调整：

CollectiveEpilogue直接参与主数据流处理
负责主要的C矩阵加载和D矩阵存储操作
Sm90AuxLoad/Store仅用于处理额外的输入/输出
采用TMA( Tensor Memory Access )技术通过共享内存进行辅助加载/存储

设计差异的技术考量

性能优化因素

Hopper架构的改动主要基于以下性能考虑：

TMA技术优势：Hopper引入的TMA-based辅助加载/存储带来了显著的性能提升
共享内存瓶颈：TMA操作通过共享内存进行，导致共享内存使用量随EVT节点数快速增加
分片大小限制：过多的共享内存使用会限制分片(tiling)大小，进而影响性能
内存重用优化：Hopper EVT手动重用C和D之间的共享内存以缓解上述问题

架构特性差异

Ampere架构的实现方式因其硬件特性而不同：

辅助加载/存储直接在全局内存和寄存器之间进行
不涉及共享内存的使用
C和D矩阵可以安全地由EVT处理
实现更加通用和灵活

技术实现建议

对于希望在Ampere架构上实现类似功能的情况，建议考虑：

优先采用Ampere现有的完全EVT-based实现方式
在不需要共享内存参与辅助加载/存储的场景下，Ampere方案更具通用性
如需在Hopper上实现完全EVT-based方案，需要考虑自动检测共享内存重用机会的机制

未来发展方向

当前EVT机制在共享内存重用方面的自动化程度仍有提升空间。未来可能的发展方向包括：

开发更智能的共享内存重用检测算法
优化TMA操作的共享内存使用效率
平衡灵活性和性能的设计折衷方案

这些优化将有助于在不同架构上实现更高效、更通用的尾处理机制。

cutlass

CUDA Templates and Python DSLs for High-Performance Linear Algebra

项目地址：https://gitcode.com/GitHub_Trending/cu/cutlass

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

424

375

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.65 K

964

CUTLAS项目中Hopper与Ampere架构的EVT尾处理差异分析

背景概述

架构实现差异

Ampere架构实现特点

Hopper架构实现特点

设计差异的技术考量

性能优化因素

架构特性差异

技术实现建议

未来发展方向

热门内容推荐

最新内容推荐

项目优选

CUTLAS项目中Hopper与Ampere架构的EVT尾处理差异分析

背景概述

架构实现差异

Ampere架构实现特点

Hopper架构实现特点

设计差异的技术考量

性能优化因素

架构特性差异

技术实现建议

未来发展方向

相关内容推荐

热门内容推荐

最新内容推荐

项目优选