ROCm/HIP项目CUDA代码迁移指南：从入门到实践

2026-02-04 05:07:20作者：郜逊炳

概述

本文将深入探讨如何将现有的CUDA代码迁移到HIP环境中。HIP作为ROCm生态系统的重要组成部分，旨在简化CUDA代码向AMD平台的迁移过程。我们将从基本概念讲起，逐步介绍迁移工具、策略和最佳实践，帮助开发者高效完成代码迁移工作。

HIP简介

HIP（Heterogeneous-Compute Interface for Portability）是AMD开发的一种C++运行时API和内核语言，允许开发者为AMD和NVIDIA GPU编写可移植的代码。HIP的设计目标是：

提供与CUDA相似的编程模型
保持与CUDA相近的性能表现
实现代码在AMD和NVIDIA平台间的可移植性

迁移策略

混合编译策略

HIP的一个关键优势是支持混合编译模式：

可以逐步将CUDA代码转换为HIP
转换过程中代码仍可编译和测试
最终实现完全迁移

唯一需要注意的例外是错误处理类型hipError_t，它不是cudaError_t的简单别名。HIP提供了专门的转换函数来处理错误代码空间的转换。

迁移流程建议

初始阶段：建议在NVIDIA机器上开始迁移工作，这样可以方便地测试功能和性能
中间阶段：将CUDA代码迁移到HIP并在CUDA机器上运行验证
最终阶段：为AMD机器编译HIP代码

自动化迁移工具

HIP提供了强大的自动化迁移工具HIPIFY，主要包含两个版本：

1. hipify-clang

基于Clang的工具，特点包括：

真正解析代码并生成抽象语法树
需要能够编译的CUDA代码
需要完整的CUDA安装和头文件
转换准确度高

2. hipify-perl

基于模式匹配的工具，特点包括：

不需要CUDA安装
可以处理语法不正确的代码
设置和使用更简单
功能相对有限

代码扫描工具

在正式迁移前，可以使用--examine选项进行预扫描：

不修改源文件
统计CUDA代码量
评估可自动转换的API数量
生成详细报告

示例扫描结果会显示：

可转换的API引用数量
代码总行数
警告信息
详细的API转换对应关系

库对应关系

ROCm提供了与CUDA库对应的HIP实现，主要分为两类：

1. hip前缀库

设计为可移植实现
可以在AMD和NVIDIA平台上运行
通常是对底层库的封装

2. roc前缀库

针对AMD GPU优化
可能使用汇编代码
性能通常更好
专为AMD平台设计

重要库对应关系：

CUDA库	HIP库	ROCm库	功能描述
cuBLAS	hipBLAS	rocBLAS	基础线性代数子程序
cuFFT	hipFFT	rocFFT	快速傅里叶变换库
cuSPARSE	hipSPARSE	rocSPARSE	稀疏矩阵运算
cuRAND	hipRAND	rocRAND	随机数生成

平台识别与条件编译

平台识别宏

HIP提供了以下宏来识别目标平台：

__HIP_PLATFORM_AMD__：AMD平台
__HIP_PLATFORM_NVIDIA__：NVIDIA平台

这些宏可用于编写平台特定的代码路径。

编译目标识别

__HIP_DEVICE_COMPILE__：标识当前是否为设备代码编译
__HIPCC__：标识是否使用HIP编译器
__HIP__：标识是否在HIP编译环境中

设备架构特性识别

HIP提供了特性级宏来替代CUDA中的架构版本检查，使代码更具可移植性：

#if __HIP_ARCH_HAS_DOUBLES__ == 1
// 使用双精度浮点运算的代码
#endif

运行时特性查询

在主机代码中，可以通过以下API查询设备特性：

hipGetDeviceProperties：获取设备属性结构体
hipDeviceGetAttribute：查询特定设备属性

示例代码：

hipDeviceProp_t deviceProp;
hipGetDeviceProperties(&deviceProp, deviceId);

if (deviceProp.arch.hasSharedInt32Atomics) {
    // 设备支持共享内存中的32位整数原子操作
}

架构特性对照表

宏定义	设备属性	功能描述
`__HIP_ARCH_HAS_GLOBAL_INT32_ATOMICS__`	`hasGlobalInt32Atomics`	全局内存32位整数原子操作
`__HIP_ARCH_HAS_DOUBLES__`	`hasDoubles`	双精度浮点运算支持
`__HIP_ARCH_HAS_FLOAT_ATOMIC_ADD__`	`hasFloatAtomicAdd`	浮点原子加操作