Ollama项目CPU运行模式配置指南

2025-04-28 10:33:16作者：戚魁泉Nursing

启动并运行 Llama 2、Mistral、Gemma 和其他大型语言模型。

项目地址：https://gitcode.com/GitHub_Trending/oll/ollama

在机器学习模型推理领域，硬件资源分配对性能测试和运行环境适配至关重要。Ollama作为流行的模型服务框架，其默认会优先调用GPU资源进行加速，但在某些特定场景下（如性能基准测试、GPU资源受限环境或功耗敏感场景），开发者可能需要强制模型仅使用CPU进行计算。本文将深入解析Oollama的CPU运行模式配置方法。

核心配置参数

Ollama通过num_gpu参数控制GPU资源的使用数量，该参数支持以下配置方式：

交互式命令行配置
在Ollama的交互式界面中直接输入：
```
/set parameter num_gpu 0
```
此命令会立即生效，后续所有模型推理都将仅使用CPU资源。
API调用配置
通过REST API发起请求时，在请求体中添加参数：
```
{
  "parameters": {
    "num_gpu": 0
  }
}
```

技术原理深度解析

当设置num_gpu=0时，Ollama底层会触发以下行为：

计算设备选择
框架会跳过CUDA/NVIDIA驱动检测，直接使用CPU作为计算后端
内存分配策略
所有模型参数和中间计算结果都将存储在系统内存中，而非显存
算子调度优化
自动选择适合CPU执行的算子实现版本（如MKL/DNNL优化的计算内核）

典型应用场景

性能基准测试
通过禁用GPU可准确测量纯CPU环境下的推理延迟和吞吐量
跨平台兼容性
在没有GPU驱动的服务器或容器环境中确保服务可用性
能效比测试
对比不同硬件配置下的功耗/性能比值

注意事项

性能差异
CPU模式下的推理速度通常比GPU慢10-100倍，具体取决于模型复杂度
内存需求
大模型（如70B参数级别）需要确保足够系统内存（建议64GB以上）
混合精度支持
CPU模式下某些量化策略（如INT8）可能需要额外配置

扩展配置建议

对于高级用户，还可以结合以下参数进行细粒度控制：

num_threads: 设置CPU计算线程数
batch_size: 调整CPU批处理大小
memory_mode: 控制内存分配策略

通过合理配置这些参数，可以在CPU环境下获得最优的性能表现。建议在实际部署前进行充分的压力测试，以确定最适合当前硬件配置的参数组合。

启动并运行 Llama 2、Mistral、Gemma 和其他大型语言模型。

项目地址：https://gitcode.com/GitHub_Trending/oll/ollama

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。