AMD ROCm深度学习环境部署指南

2026-04-16 08:19:19作者：余洋婵Anita

环境配置基础

兼容性检查

环境检查需要验证三个关键要素：系统版本需为Windows 11 22H2或更高版本；硬件方面推荐AMD RX 6000/7000系列显卡，内存至少16GB；软件依赖包括Python 3.8-3.11、Git和Visual Studio 2022（含C++桌面开发组件）。

不同ROCm版本对各类显卡的支持情况有所不同：

ROCm 5.7

RX 6800：基础支持

RX 6900 XT：完整支持

RX 7900 XTX：不支持

MI250：完整支持

MI300X：不支持

ROCm 6.0

RX 6800：基础支持

RX 6900 XT：完整支持

RX 7900 XTX：部分功能

MI250：完整支持

MI300X：基础支持

ROCm 6.1

RX 6800：优化支持

RX 6900 XT：优化支持

RX 7900 XTX：完整支持

MI250：优化支持

MI300X：完整支持

⚠️ 注意：ROCm 6.0以上版本对消费级显卡支持显著提升，但部分AI框架仍需手动配置。

🔍 自测问题：如何查看自己的Windows系统版本？

安装部署流程

获取安装脚本

适用场景：获取最新的ROCm Windows安装脚本

git clone https://gitcode.com/GitHub_Trending/ro/ROCm
cd ROCm

⚡ 优化点：克隆仓库前确保网络连接稳定，建议使用加速工具提高下载速度。

处理版本依赖

适用场景：自动处理版本依赖并生成安装清单

./tools/autotag/compile_changelogs.sh

该脚本会分析组件依赖关系，生成适合当前系统的安装清单，耗时约2-3分钟。

配置环境变量

适用场景：确保系统能找到ROCm可执行文件和库

setx ROCM_PATH "C:\Program Files\AMD\ROCm" /M
setx PATH "%PATH%;%ROCM_PATH%\bin;%ROCM_PATH%\lib" /M

⚠️ 注意：设置系统环境变量后需要重启终端才能生效。

安装PyTorch

适用场景：安装针对ROCm优化的PyTorch版本

pip install torch torchvision --index-url https://download.pytorch.org/whl/rocm6.1

⚡ 优化点：使用国内镜像源可以加速安装过程，如添加 -i https://pypi.tuna.tsinghua.edu.cn/simple 参数。

验证安装状态

适用场景：确认GPU被正确识别且驱动正常工作

rocminfo
rocm-smi

预期结果：rocminfo显示GPU型号和架构信息，rocm-smi显示GPU状态和温度等信息。

实际结果：若命令未找到，检查环境变量配置是否正确；若显示设备信息不全，可能需要更新驱动。

高级配置方案

设置GPU架构覆盖

适用场景：让ROCm识别消费级显卡架构

setx HSA_OVERRIDE_GFX_VERSION "11.0.0" /M

底层原理：通过环境变量强制指定GPU架构版本，解决消费级显卡识别问题。

配置虚拟内存

打开系统属性 > 高级 > 性能设置 > 高级 > 虚拟内存，设置为GPU显存的1.5倍（如16GB显存设置24GB虚拟内存）。

⚡ 优化点：将虚拟内存设置在SSD上可以提升性能。

禁用Windows快速启动

控制面板 > 电源选项 > 选择电源按钮的功能 > 更改当前不可用的设置 > 取消勾选"启用快速启动"。

⚠️ 注意：禁用快速启动可能会延长系统启动时间，但能提高ROCm稳定性。

验证PyTorch配置

import torch

print(f"PyTorch版本: {torch.__version__}")
print(f"ROCm支持: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU型号: {torch.cuda.get_device_name(0)}")
    print(f"显存大小: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.2f}GB")

预期结果：显示ROCm版本和GPU信息，无错误提示。

实际结果：若torch.cuda.is_available()返回False，检查HSA_OVERRIDE_GFX_VERSION环境变量是否正确设置。

图注：AMD MI300X Infinity平台节点级架构，展示多GPU高性能计算环境的理想配置

实战案例分析

Stable Diffusion部署

环境准备

适用场景：安装Stable Diffusion依赖库

pip install diffusers transformers accelerate

启动文生图服务

适用场景：使用ROCm加速Stable Diffusion推理

python -m diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion --prompt "a photo of an astronaut riding a horse on mars" --device cuda

显存优化配置

适用场景：优化显存分配策略，减少内存碎片化

setx PYTORCH_HIP_ALLOC_CONF "garbage_collection_threshold:0.6,max_split_size_mb:128" /M

常见失败模式：

症状：生成过程中出现内存溢出
解决方案：降低批次大小或启用模型量化

LLaMA2-7B模型部署

模型转换

适用场景：将原始LLaMA权重转换为Hugging Face格式

python convert_llama_weights_to_hf.py --input_dir ./llama-2-7b --model_size 7B --output_dir ./llama-7b-hf

量化加载模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "./llama-7b-hf", 
    device_map="auto",
    load_in_4bit=True  # 使用4-bit量化减少显存占用
)
tokenizer = AutoTokenizer.from_pretrained("./llama-7b-hf")

常见失败模式：