Ollama项目CPU推理性能下降问题分析与解决方案

2025-04-28 09:41:36作者：尤峻淳Whitney

Get up and running with Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and other models.

项目地址：https://gitcode.com/GitHub_Trending/oll/ollama

问题概述

近期Ollama项目从0.5.7版本升级到0.5.9及后续版本后，多个用户报告在纯CPU环境下进行大语言模型推理时出现了显著的性能下降。这一问题在多种硬件配置上均有出现，特别是使用Intel Xeon系列处理器的用户受影响最为明显。

性能下降表现

根据用户提供的基准测试数据，性能下降幅度相当可观：

在双路Xeon 6126系统上，推理速度从约3 tokens/秒降至2 tokens/秒
有用户报告8B模型的推理时间从53秒激增至13分28秒（约15倍性能下降）
70B模型甚至无法在合理时间内完成推理（此前约10分钟）

技术背景分析

Ollama 0.5.9版本引入了一个重要的架构变更：动态CPU后端加载机制。这一机制旨在根据检测到的CPU特性自动选择最优化的计算后端，理论上应该提升性能而非降低性能。

新版本中，Ollama会尝试加载与CPU架构匹配的优化后端库，如：

libggml-cpu-sapphirerapids.so（针对Sapphire Rapids架构）
libggml-cpu-icelake.so（针对Ice Lake架构）
libggml-cpu-skylakex.so（针对Skylake-X架构）

问题根源

经过技术分析，性能下降可能由以下几个因素导致：

后端选择不当：系统可能选择了不适合当前CPU的优化后端，导致无法充分利用CPU的向量化指令集（如AVX512）
多后端加载冲突：有迹象表明多个CPU后端可能被同时加载，这与llama.cpp的设计假设（单一CPU后端）相冲突
指令集优化失效：在某些情况下，系统可能回退到最基本的C实现，完全跳过了SIMD指令优化

验证与解决方案

临时解决方案

用户可以尝试以下方法恢复性能：

手动选择CPU后端：

# 查看当前加载的后端
journalctl -u ollama --no-pager | grep "load_backend"

# 移除不合适的后端（以Linux为例）
sudo rm /usr/local/lib/ollama/libggml-cpu-sapphirerapids.so

降级到0.5.7版本：如果性能问题严重影响使用，可暂时回退到0.5.7版本

性能对比测试

用户vt-alt提供了详尽的性能对比数据，展示了不同CPU后端在同一硬件上的表现：

CPU后端	Tokens/秒 (第一次)	Tokens/秒 (第二次)
sapphirerapids	2.09	2.05
icelake	2.39	2.37
skylakex	2.21	2.31
alderlake	2.25	2.16
haswell	2.36	2.33
sandybridge	2.11	2.17
无优化后端	0.41	0.41

这一测试清晰地表明，并非最高级的CPU后端（sapphirerapids）能提供最佳性能，而是需要根据实际CPU特性选择最匹配的后端。

技术建议

CPU特性检测：用户应确认自己的CPU支持的指令集，选择最匹配的后端。例如，支持AVX512的CPU不一定能从sapphirerapids后端获得最佳性能。
性能监控：在进行重要推理任务前，建议先用小规模输入测试不同后端的性能表现。
线程配置：确保Ollama使用的线程数与物理核心数匹配，避免资源争用。

未来展望

Ollama开发团队已确认此问题并着手修复。预期未来版本将：

改进CPU后端自动选择算法
确保单一后端加载机制
提供更详细的性能诊断信息

对于依赖CPU推理的用户，建议关注后续版本更新，同时可根据本文提供的方案进行临时优化。

Get up and running with Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and other models.

项目地址：https://gitcode.com/GitHub_Trending/oll/ollama

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

[TradingAgents-CN]部署决策指南：从新手到专家的三种路径选择突破AE动画网页化瓶颈：Bodymovin全链路实战 4个维度解析TrWebOCR：重新定义中文离线OCR技术标准告别QQ空间回忆丢失烦恼：用GetQzonehistory实现永久备份【彻底卸载】OptiScaler残留清理全攻略：从文件到注册表的深度净化方案 Mac抢票黑科技：春运抢票终极方案，告别网页卡顿烦恼跨平台桌面应用的键盘效率提升指南：全局快捷键配置全解析全功能C++ PDF处理引擎：PoDoFo企业级应用开发指南教育资源高效获取的3个秘诀：从混乱到有序的智慧管理指南 3种颠覆式游戏手柄适配方案：从设备识别到跨平台优化的完整指南

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

Ascend Extension for PyTorch

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端