ROCm项目中的hipBLASLt架构支持问题分析与解决方案

2025-06-09 12:29:15作者：蔡丛锟

项目地址：https://gitcode.com/gh_mirrors/roc/ROCm

问题背景

在AMD ROCm生态系统中，用户在使用AMD Radeon RX 7900 XTX显卡配合ROCm 6.2.2版本运行基于PyTorch的深度学习模型时，遇到了一个关键错误："RuntimeError: Attempting to use hipBLASLt on a unsupported architecture!"。这个问题主要出现在Ubuntu 24.04.1 LTS系统环境下，当用户尝试运行openbmb/MiniCPM-Llama3-V-2_5这类大型语言模型时触发。

技术分析

该问题的核心在于PyTorch版本与ROCm 6.2.2之间的兼容性问题。hipBLASLt是AMD ROCm平台上的一个高性能线性代数库，专为加速矩阵运算而设计。在特定版本的PyTorch中，对hipBLASLt的调用逻辑出现了问题，导致系统错误地判断当前GPU架构不受支持。

从技术细节来看，这个问题源于PyTorch版本2.6.0.dev20241014及之后的版本中引入的变更，这些变更影响了hipBLASLt库对AMD RDNA3架构（gfx1100）的支持检测机制。虽然Radeon RX 7900 XTX显卡（基于gfx1100架构）实际上完全支持hipBLASLt功能，但版本检测逻辑的错误导致了运行时异常。

影响范围

此问题主要影响以下配置组合：

AMD Radeon RX 7000系列显卡（特别是7900 XTX）
ROCm 6.2.2运行时环境
PyTorch nightly版本（2.6.0.dev20241014及之后）
Ubuntu 24.04 LTS操作系统

解决方案

目前有两种可行的解决方案：

版本降级法：将PyTorch降级到2.6.0.dev20241013版本，这个版本尚未引入有问题的变更。可以通过以下命令实现：
```
pip install torch==2.6.0.dev20241013
```
Docker容器法：使用官方提供的ROCm PyTorch Docker镜像，这些镜像中的PyTorch版本（如2.3.0a0+gitd2f9472）经过充分测试，不存在此兼容性问题。