Ollama项目中Sapphire Rapids CPU在Windows下的性能问题分析

2025-04-26 14:44:53作者：庞眉杨Will

背景介绍

在Ollama项目的0.5.7至0.5.12版本迭代过程中，用户报告了基于Intel Sapphire Rapids架构的W9-3495x处理器在Windows系统上运行qwen2.5-coder-7b-instruct-fp16模型时出现的性能波动问题。这一问题特别值得关注，因为虽然Sapphire Rapids支持AMX指令集，但在Windows环境下该指令集并未得到有效支持。

性能变化趋势

通过对不同版本Ollama的性能测试数据对比，我们可以观察到明显的性能波动：

0.5.7版本：作为基准版本，其eval速率为15.69 tokens/s，prompt速率为107.64 tokens/s
0.5.9版本：性能显著下降，eval速率降至5.73 tokens/s，仅为基准版本的36%
0.5.11版本：性能有所回升，eval速率提升至8.41 tokens/s，达到基准版本的53%
0.5.12版本：性能接近恢复，eval速率为15.04 tokens/s，达到基准版本的96%

值得注意的是，0.5.12版本在prompt处理性能上实现了显著提升，达到160.62 tokens/s，相比基准版本提升了约49%。

技术分析

从日志信息可以看出，不同版本加载了不同的CPU后端库：

0.5.7版本使用了cpu_avx2运行器
0.5.9至0.5.12版本则加载了ggml-cpu-icelake.dll或类似的后端库

这种后端库的切换可能是导致性能波动的主要原因。特别是在Windows环境下，由于AMX指令集支持的限制，系统可能无法充分发挥Sapphire Rapids处理器的全部潜力。

解决方案与展望

根据项目维护者的反馈，0.5.12版本已经解决了这一问题。对于使用类似硬件的用户，建议：

升级到最新版本以获得最佳性能
关注prompt处理性能的显著提升，这在需要频繁交互的场景下尤为重要
期待未来版本在eval性能上也能实现类似的提升

结论

硬件特性支持与软件优化的匹配是AI推理性能优化的关键。Ollama项目团队通过持续迭代，已经基本解决了Sapphire Rapids处理器在Windows环境下的性能问题，为用户提供了更稳定高效的体验。

登录后查看全文

Ollama项目中Sapphire Rapids CPU在Windows下的性能问题分析

背景介绍

性能变化趋势

技术分析

解决方案与展望

结论

项目优选