Ollama项目在AMD GPU上运行模型崩溃问题分析

2025-04-28 03:10:38作者：彭桢灵Jeremy

在Ollama项目0.5.12版本中，用户报告了一个在使用AMD Radeon Pro VII GPU运行模型时出现的崩溃问题。通过分析日志和堆栈信息，我们可以深入了解这个问题的技术本质。

问题现象

当用户尝试通过Ollama服务器调用模型时，系统会立即崩溃。从日志中可以看到，模型加载过程看似正常完成，但在实际执行推理时出现了非法指令错误(SIGILL)。错误发生在ROCm后端处理半精度浮点转换指令时。

技术分析

崩溃的核心原因是处理器执行了一条不被支持的指令：vcvtph2ps。这是一条将16位半精度浮点数转换为单精度浮点数的AVX指令。错误发生在ROCm库的底层计算过程中。

从硬件信息来看，用户使用的是Intel E5-2689处理器和AMD Radeon Pro VII显卡组合。虽然显卡支持ROCm计算，但处理器可能缺少必要的指令集扩展。

根本原因

这个问题与ROCm库的版本有关。旧版ROCm在某些处理器上会尝试使用不被支持的AVX指令。特别是当处理器缺少F16C指令集扩展时，vcvtph2ps指令将无法执行。

解决方案

Ollama团队已经在新版本(0.5.13)中升级了ROCm到6.3版本，该版本修复了这个问题。新版本会更好地检测硬件能力，避免在不支持的平台上使用特定指令。

技术建议

对于遇到类似问题的用户，可以采取以下措施：

升级到最新版Ollama
检查处理器是否支持F16C指令集
考虑使用纯CPU模式运行模型
在支持的硬件配置上运行ROCm后端

这个问题展示了深度学习框架在跨平台兼容性方面的挑战，特别是在处理不同硬件组合时的复杂性。通过持续更新底层计算库，可以逐步提高框架的稳定性和兼容性。

ollama

启动并运行 Llama 2、Mistral、Gemma 和其他大型语言模型。

项目地址：https://gitcode.com/GitHub_Trending/oll/ollama

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

105

119