Ollama项目在AMD EPYC 9654平台上的性能优化分析

2025-04-26 12:55:33作者：柯茵沙

在大型语言模型部署实践中，硬件平台的选择与软件适配往往对性能产生决定性影响。本文针对Ollama项目在AMD EPYC 9654双路服务器上的性能表现进行深入分析，特别关注了从0.5.7版本升级到0.5.11版本后出现的性能下降问题。

问题现象

在Windows Server 2022环境下，配备双路AMD EPYC 9654处理器和NVIDIA RTX 3090显卡的系统中，用户部署了DeepSeek-R1 671B量化模型。测试数据显示，从Ollama 0.5.7升级到0.5.11后，推理性能出现了显著下降：

推理速度从约2.5 tokens/s降至1.5 tokens/s
CPU利用率从80%提升至100%
相同提示词下的响应时间明显延长

技术分析

通过日志分析和技术验证，我们发现以下几个关键点：

CPU后端选择机制：Ollama会根据CPU特性自动选择最优的后端实现。EPYC 9654作为2022年发布的处理器，理论上应获得最佳优化，但系统却选择了2019年的Icelake后端。
资源分配差异：日志显示两个版本在GPU显存分配上完全一致，但CPU计算路径存在明显区别。0.5.11版本可能未能充分利用EPYC处理器的先进特性。
多核调度策略：性能下降伴随着CPU利用率提升至100%，这表明新版本可能采用了不同的线程调度策略，导致效率降低。

解决方案与优化建议

针对这一问题，我们建议采取以下措施：

手动指定CPU后端：尝试重命名Ollama安装目录下的ggml-cpu DLL文件，仅保留最适合EPYC架构的后端实现。虽然Alderlake后端理论上得分最高，但需要实际测试验证。
环境变量调优：通过设置OLLAMA_LLM_LIBRARY环境变量强制指定后端实现，避免自动选择机制带来的不确定性。
性能监控与分析：使用Windows性能监视器详细跟踪各CPU核心的负载情况，找出可能的线程争用或调度问题。
版本回退验证：在确认0.5.7版本性能更优的情况下，可暂时保持该版本，等待后续修复。

深入技术探讨

EPYC 9654作为Zen4架构处理器，具备AVX-512指令集支持，理论上应获得最佳性能表现。性能下降的可能原因包括：

新版本可能引入了额外的同步开销
内存访问模式发生变化，影响缓存效率
NUMA节点调度策略调整，影响跨CPU通信

这些问题在双路系统中尤为明显，因为跨CPU互联延迟会放大任何微小的效率损失。

结论与展望

大型语言模型部署是一个复杂的系统工程，需要软件栈与硬件平台的深度适配。本次案例分析表明，即使是成熟的框架如Ollama，在特定硬件组合下也可能出现性能波动。建议用户在升级前进行充分的性能基准测试，并保持对系统资源的监控。

未来，随着AMD EPYC处理器在AI计算领域的广泛应用，期待Ollama项目能够提供更完善的Zen架构优化支持，充分发挥现代服务器处理器的计算潜力。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

昇腾LLM分布式训练框架

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started