Ollama项目在AMD双GPU环境下的内存分配问题分析

2025-04-28 04:40:22作者：幸俭卉

问题背景

在使用Ollama项目（一个开源的大语言模型服务）时，用户报告了在配备AMD W7900和7900 XTX双显卡的系统中运行时出现的内核错误。系统环境为Linux内核6.12.13和ROCm 6.0.2版本。

当用户尝试运行Ollama服务时，系统日志中出现了关键错误信息：

amdgpu: Queue memory allocated to wrong device
BUG: unable to handle page fault for address: 0000000200000142

这个错误导致系统触发了一个内核Oops（内核异常），最终导致Ollama进程崩溃。

从内核日志可以看出，问题出在AMD GPU驱动（amdgpu）的内存分配机制上。具体来说：

内核调用栈显示错误发生在amdgpu_amdkfd_free_gtt_mem函数中，这是AMD GPU驱动中负责释放图形转换表(GTT)内存的函数。调用链如下：

这个问题特别出现在双GPU环境中，即使两个GPU的GFX版本相同。这表明问题可能与多GPU资源分配和调度机制有关。AMD的ROCm运行时在多GPU环境下需要正确识别和管理不同设备间的资源分配。

用户通过以下方法解决了该问题：

对于遇到类似问题的用户，建议：

这个问题展示了在复杂GPU环境中运行AI工作负载时可能遇到的底层驱动问题。通过驱动更新或环境隔离可以有效解决此类硬件资源分配问题。对于AI开发者而言，保持驱动和运行时的最新状态是确保系统稳定性的重要措施。

登录后查看全文