在Perlmutter系统上编译使用CUDALibrarySamples中的cuFFTMp

2025-07-06 17:46:26作者：管翌锬

背景介绍

cuFFTMp是NVIDIA提供的分布式快速傅里叶变换(FFT)库，它基于NVIDIA Collective Communications Library(NCCL)和NVIDIA SHMEM(NVSHMEM)实现，能够在多个GPU之间高效地进行FFT计算。Perlmutter是美国国家能源研究科学计算中心(NERSC)的超级计算机系统，配备了NVIDIA A100 GPU。

常见编译问题分析

在Perlmutter系统上编译使用cuFFTMp时，开发者经常会遇到两类典型的链接错误：

符号重复定义错误
当同时链接libnvshmem.a和libnvshmem_device.a时，会出现多个相同符号的定义冲突，这是因为这两个库包含了相同的设备端代码实现。
未定义引用错误
当没有正确链接NVSHMEM库或者链接顺序不当时，会出现各种NVSHMEM API的未定义引用错误，这表明链接器无法找到必要的NVSHMEM实现。

正确编译方法

经过NVIDIA开发者的验证，正确的编译命令应遵循以下原则：

仅使用设备端NVSHMEM库
避免同时链接libnvshmem.a和libnvshmem_device.a，只使用后者及其配套的主机端库。
正确的库链接顺序
cuFFTMp库(-lcufftMp)应该放在NVSHMEM库(-lnvshmem_device -lnvshmem_host)之前。
避免冗余链接
cuFFTMp已经包含了cuFFT的所有功能，因此不需要额外链接-lcufft。

示例编译命令：

CC -gpu=cc80 test_cufft.cu \
   -I /opt/nvidia/hpc_sdk/Linux_x86_64/23.9/comm_libs/nvshmem/include/ \
   -I /opt/nvidia/hpc_sdk/Linux_x86_64/23.9/math_libs/include/cufftmp \
   -L /opt/nvidia/hpc_sdk/Linux_x86_64/23.9/math_libs/lib64 \
   -L /opt/nvidia/hpc_sdk/Linux_x86_64/23.9/comm_libs/nvshmem/lib \
   -Wl,-rpath,/opt/nvidia/hpc_sdk/Linux_x86_64/23.9/comm_libs/nvshmem/lib \
   -lcufftMp -lnvshmem_device -lnvshmem_host

技术要点

NVSHMEM架构理解
NVSHMEM采用分离式设计，libnvshmem_host处理主机端通信，libnvshmem_device处理设备端通信。混合使用完整库和设备库会导致符号冲突。
库依赖关系
cuFFTMp依赖于NVSHMEM的特定API实现，正确的链接顺序确保解析依赖关系时能找到所有必要符号。
Perlmutter环境适配
使用-gpu=cc80标志指定A100 GPU的计算能力，确保生成代码能充分利用硬件特性。