Exllama v2在多GPU环境下加载模型崩溃问题分析与解决方案

2025-06-15 17:24:20作者：裘晴惠Vivianne

问题背景

Exllama v2作为一款高效的LLM推理引擎，在Windows系统多GPU环境下出现了模型加载异常的问题。当尝试在第三块GPU上加载模型时，系统会意外崩溃或报出内存不足的错误，尽管实际显存容量充足。这一问题在混合使用不同型号GPU（如RTX 3090与A4000组合）时尤为明显。

用户报告的主要症状包括：

经过深入排查，发现该问题与以下因素密切相关：

关键发现：

针对不同使用场景，推荐以下解决方案：

对于长期稳定运行的生产环境，建议考虑迁移到Linux系统，可彻底避免此类驱动兼容性问题。

Exllama v2在多GPU环境下的这一加载问题，本质上是NVIDIA驱动在Windows平台对混合模式GPU支持不完善导致的。通过驱动版本控制或工作模式统一可以有效解决。这提醒我们在构建多GPU推理系统时，不仅要考虑硬件配置，还需要特别关注驱动版本和工作模式的兼容性。

登录后查看全文