Ollama项目中Sapphire Rapids CPU在Windows下的性能问题分析
2025-04-26 14:44:53作者:庞眉杨Will
背景介绍
在Ollama项目的0.5.7至0.5.12版本迭代过程中,用户报告了基于Intel Sapphire Rapids架构的W9-3495x处理器在Windows系统上运行qwen2.5-coder-7b-instruct-fp16模型时出现的性能波动问题。这一问题特别值得关注,因为虽然Sapphire Rapids支持AMX指令集,但在Windows环境下该指令集并未得到有效支持。
性能变化趋势
通过对不同版本Ollama的性能测试数据对比,我们可以观察到明显的性能波动:
- 0.5.7版本:作为基准版本,其eval速率为15.69 tokens/s,prompt速率为107.64 tokens/s
- 0.5.9版本:性能显著下降,eval速率降至5.73 tokens/s,仅为基准版本的36%
- 0.5.11版本:性能有所回升,eval速率提升至8.41 tokens/s,达到基准版本的53%
- 0.5.12版本:性能接近恢复,eval速率为15.04 tokens/s,达到基准版本的96%
值得注意的是,0.5.12版本在prompt处理性能上实现了显著提升,达到160.62 tokens/s,相比基准版本提升了约49%。
技术分析
从日志信息可以看出,不同版本加载了不同的CPU后端库:
- 0.5.7版本使用了
cpu_avx2运行器 - 0.5.9至0.5.12版本则加载了
ggml-cpu-icelake.dll或类似的后端库
这种后端库的切换可能是导致性能波动的主要原因。特别是在Windows环境下,由于AMX指令集支持的限制,系统可能无法充分发挥Sapphire Rapids处理器的全部潜力。
解决方案与展望
根据项目维护者的反馈,0.5.12版本已经解决了这一问题。对于使用类似硬件的用户,建议:
- 升级到最新版本以获得最佳性能
- 关注prompt处理性能的显著提升,这在需要频繁交互的场景下尤为重要
- 期待未来版本在eval性能上也能实现类似的提升
结论
硬件特性支持与软件优化的匹配是AI推理性能优化的关键。Ollama项目团队通过持续迭代,已经基本解决了Sapphire Rapids处理器在Windows环境下的性能问题,为用户提供了更稳定高效的体验。
登录后查看全文
热门项目推荐
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
HY-Embodied-0.5这是一套专为现实世界具身智能打造的基础模型。该系列模型采用创新的混合Transformer(Mixture-of-Transformers, MoT) 架构,通过潜在令牌实现模态特异性计算,显著提升了细粒度感知能力。Jinja00
LongCat-AudioDiT-1BLongCat-AudioDiT 是一款基于扩散模型的文本转语音(TTS)模型,代表了当前该领域的最高水平(SOTA),它直接在波形潜空间中进行操作。00
项目优选
收起
deepin linux kernel
C
28
15
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
660
4.26 K
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.54 K
894
Ascend Extension for PyTorch
Python
505
610
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
392
289
暂无简介
Dart
909
219
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
69
21
昇腾LLM分布式训练框架
Python
142
168
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
940
867
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
1.33 K
108