NVIDIA CUTLASS 3.8在CUDA 12.6环境下编译失败问题分析

2025-05-30 09:48:38作者：鲍丁臣Ursa

在NVIDIA CUTLASS 3.8版本中，当使用CUDA 12.6.85工具包针对90a架构进行编译时，会出现编译失败的问题。这个问题主要影响使用较新CUDA架构但尚未升级到最新CUDA工具包的用户。

问题现象

编译过程中会出现以下关键错误信息：

error: identifier "CU_TENSOR_MAP_DATA_TYPE_16U6_ALIGN16B" is undefined

这个错误发生在编译器的预处理阶段，表明在CUDA 12.6.85的头文件中缺少对CU_TENSOR_MAP_DATA_TYPE_16U6_ALIGN16B这个枚举值的定义。该枚举值是与Tensor Core操作相关的数据类型定义，特别针对float_e2m3_t（一种浮点格式）的数据类型映射。

技术背景

CUTLASS（CUDA Templates for Linear Algebra Subroutines）是NVIDIA提供的一个高性能CUDA核心库，用于实现高效的矩阵乘法和其他线性代数运算。在3.8版本中，CUTLASS增加了对新型数据格式和架构的支持，包括对90a架构（如H100 GPU）的优化。

CU_TENSOR_MAP_DATA_TYPE_16U6_ALIGN16B是CUDA工具包中定义的一个枚举值，用于描述特定数据类型的张量内存布局。这个定义在CUDA 12.8及更高版本中才被完整引入。