NVIDIA Cutlass项目中MLIR到PTX代码生成的技术解析

2025-05-30 09:54:57作者：范靓好Udolf

CUTLASS 是 CUDA C++ 模板抽象集合，可实现高性能矩阵乘法等计算，支持多种精度，还能做卷积，零基础也能借助它开启 CUDA 编程之旅。源项目地址：https://github.com/NVIDIA/cutlass

项目地址：https://gitcode.com/GitHub_Trending/cu/cutlass

概述

NVIDIA Cutlass项目是一个高性能矩阵乘法计算库，它采用了MLIR（多级中间表示）作为其编译器基础设施。在Cutlass 4版本中，开发者通过@cute.kernel注解来定义CUDA内核，这些内核会经过一系列编译过程最终生成PTX代码。本文将深入分析Cutlass项目中MLIR到PTX的完整编译流程，以及开发者如何获取和调试中间表示。

MLIR编译流程

Cutlass的DSL（领域特定语言）编译器会将@cute.kernel定义的核函数转换为MLIR表示。这个转换过程涉及多个MLIR方言的转换和优化：

高级DSL首先被转换为CuTe方言
经过一系列优化后转换为标准MLIR操作
进一步降级为LLVM IR和NVVM IR
最终通过GpuModuleToBinaryPass生成PTX代码

调试与中间表示输出

目前Cutlass项目提供了几种调试中间表示的方法：

CUTE_DSL_PRINT_IR环境变量：设置此变量为1可以输出MLIR中间表示
编译器内部API：通过pm.enable_ir_printing()方法可以启用更详细的IR打印，包括优化前后的变化

值得注意的是，当前版本(2025年5月)尚不支持直接输出最终PTX代码，但开发团队已计划在未来版本中添加CUTE_DSL_PRINT_PTX功能，使开发者能够同时查看MLIR和生成的PTX代码。

技术建议

对于希望深入了解Cutlass编译流程的开发者：

虽然项目目前没有完整的文档说明MLIR方言和优化流程，但可以通过分析编译器代码来理解
相比直接使用上游MLIR，NVIDIA官方推荐使用CuTe DSL，因为它得到了NVIDIA官方支持并由Cutlass核心团队维护
关注项目更新，特别是即将添加的Blackwell架构示例和PTX输出功能

未来展望

Cutlass项目正在不断完善其编译器基础设施，未来版本将提供更完善的调试支持，包括：

完整的MLIR转换流程跟踪
最终PTX代码输出
可能增加更多编译优化选项的调试接口

这些改进将帮助开发者更好地理解和优化他们的@cute.kernel实现，充分发挥GPU计算潜力。

CUTLASS 是 CUDA C++ 模板抽象集合，可实现高性能矩阵乘法等计算，支持多种精度，还能做卷积，零基础也能借助它开启 CUDA 编程之旅。源项目地址：https://github.com/NVIDIA/cutlass

项目地址：https://gitcode.com/GitHub_Trending/cu/cutlass

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力