CuPy项目在ROCm 6.1环境下的安装问题分析与解决方案

2025-05-23 21:02:04作者：彭桢灵Jeremy

问题背景

在使用AMD GPU进行深度学习开发时，CuPy作为NumPy的GPU加速版本，能够显著提升计算性能。然而，在ROCm 6.1.3环境下从源码构建CuPy时，开发者可能会遇到一个棘手的循环导入错误，导致无法正常导入CuPy模块。

当尝试导入CuPy时，系统会抛出以下错误信息：

ImportError: cannot import name 'core' from partially initialized module 'cupy._core' (most likely due to a circular import)

这个错误表明在模块初始化过程中出现了循环依赖问题，导致核心模块无法正常加载。

经过深入调查，发现这个问题主要由以下两个因素导致：

首先建议创建一个全新的虚拟环境，避免与其他Python包产生冲突：

python3 -m venv cupy_env
source cupy_env/bin/activate
pip install --upgrade pip wheel setuptools

对于ROCm 6.1.3环境，需要安装对应的PyTorch版本：

pip install torch==2.1.2+rocm6.1.3 torchvision==0.16.1+rocm6.1.3

在构建CuPy前，必须设置以下环境变量：

export CUPY_INSTALL_USE_HIP=1
export ROCM_HOME=/opt/rocm
export HCC_AMDGPU_TARGET=gfx1100  # 针对RX 7900 XTX显卡

按照以下步骤从源码构建CuPy：

git clone https://github.com/cupy/cupy.git
cd cupy
git checkout rocm-ci-6.1
git submodule update --init
pip install .

安装完成后，使用以下命令验证：

python -c "import cupy; print(cupy.__version__)"

成功输出版本号即表示安装正确。

环境隔离的重要性：使用虚拟环境可以避免库版本冲突，特别是在处理GPU加速库时更为关键。
版本匹配原则：ROCm版本、PyTorch版本和CuPy分支必须严格匹配，这是AMD GPU生态中的常见要求。
环境变量作用：
- CUPY_INSTALL_USE_HIP：指示CuPy使用HIP后端而非CUDA
- ROCM_HOME：指定ROCm安装路径
- HCC_AMDGPU_TARGET：指定目标GPU架构