首页
/ 如何快速部署本地大模型:Ollama 完整使用指南

如何快速部署本地大模型:Ollama 完整使用指南

2026-04-26 11:31:06作者:冯梦姬Eddie

Ollama 是一个开源的大语言模型本地部署工具,让你能在自己的电脑上运行 Kimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen、Gemma 等主流 AI 模型。无需依赖云端 API,完全离线运行,保护隐私的同时大幅降低成本。本文将为你提供从零开始的完整部署指南,涵盖安装、配置、API 调用和高级功能,让你快速掌握本地大模型部署的核心技能。

项目核心亮点

为什么要选择 Ollama?以下是它的核心优势:

  1. 完全离线运行:所有模型都运行在你的本地设备上,无需网络连接,数据完全私有,特别适合处理敏感信息的场景。

  2. 一键模型管理:通过简单的命令行即可下载、更新、切换不同的 AI 模型,支持超过 100 种开源模型,包括最新的 Gemma 4、Qwen 3、Llama 4 等。

  3. 开发者友好集成:原生支持 VS Code、IntelliJ、PyCharm 等主流 IDE,可直接在代码编辑器中调用 AI 助手,提升开发效率。

  4. 丰富的 API 兼容性:提供与 OpenAI API 兼容的接口,现有基于 OpenAI 的应用只需修改端点即可迁移到本地模型。

  5. 跨平台支持:支持 macOS、Windows、Linux 三大操作系统,无论是个人电脑还是服务器都能轻松部署。

  6. GPU 加速优化:自动检测并利用 NVIDIA CUDA、AMD ROCm、Apple Metal 等 GPU 加速框架,大幅提升推理速度。

Ollama 在 VS Code 中的集成界面

快速上手指南

第一步:一键安装 Ollama

根据你的操作系统选择对应的安装命令:

macOS 和 Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows:

irm https://ollama.com/install.ps1 | iex

安装完成后,系统会自动启动 Ollama 服务。你可以通过运行 ollama 命令验证安装是否成功。

第二步:下载第一个模型

Ollama 提供了丰富的模型库。让我们从下载一个轻量级但功能强大的模型开始:

# 下载 Gemma 3 模型(约 2.7GB)
ollama pull gemma3:4b

# 或者下载 Qwen 2.5 模型
ollama pull qwen2.5:3b

下载过程会自动进行,你可以在终端看到进度条。模型文件会存储在本地,默认位置为:

  • macOS: ~/.ollama/models
  • Linux: ~/.ollama/models
  • Windows: C:\Users\<username>\.ollama\models

第三步:运行模型并与 AI 对话

现在让我们启动模型并进行第一次对话:

# 启动交互式聊天
ollama run gemma3:4b

# 或者直接运行一次性对话
ollama run gemma3:4b "请用中文解释什么是机器学习"

在交互式模式中,你可以像与 ChatGPT 一样与模型对话。输入 /bye 或按 Ctrl+D 退出。

第四步:配置模型设置

Ollama 提供了丰富的配置选项。打开设置界面:

# 在 macOS/Linux 中打开设置
open ~/.ollama/config.json

# 或者在 Windows 中
notepad C:\Users\<username>\.ollama\config.json

主要配置项包括:

  • context_length: 设置上下文长度(4k-128k tokens)
  • num_gpu: 指定使用的 GPU 数量
  • num_thread: CPU 线程数
  • temperature: 控制生成文本的随机性

Ollama 设置界面

第五步:通过 API 调用模型

Ollama 提供了兼容 OpenAI 的 REST API,方便集成到现有应用中:

# 使用 curl 测试 API
curl http://localhost:11434/api/chat -d '{
  "model": "gemma3:4b",
  "messages": [
    {"role": "user", "content": "请帮我写一个 Python 函数来计算斐波那契数列"}
  ],
  "stream": false
}'

Python 代码示例:

import requests
import json

response = requests.post('http://localhost:11434/api/chat', json={
    'model': 'gemma3:4b',
    'messages': [{'role': 'user', 'content': '你好!'}]
})
print(response.json()['message']['content'])

第六步:集成到开发环境

Ollama 与主流 IDE 深度集成。以 VS Code 为例:

  1. 安装 VS Code 扩展 "Continue" 或 "Claude Code"
  2. 在扩展设置中配置 Ollama 为模型提供者
  3. 选择你想要使用的本地模型

现在你可以在代码编辑器中直接使用 AI 辅助编程功能,包括代码补全、代码解释、bug 修复等。

VS Code 中的 Ollama 集成

进阶使用技巧

技巧一:多模型并行管理

Ollama 支持同时运行多个模型实例,适合不同场景的需求:

# 启动两个不同的模型服务
ollama serve --model gemma3:4b --port 11435
ollama serve --model qwen2.5:7b --port 11436

# 分别调用不同的模型
curl http://localhost:11435/api/chat -d '{"model":"gemma3:4b","messages":[{"role":"user","content":"问题1"}]}'
curl http://localhost:11436/api/chat -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"问题2"}]}'

技巧二:自定义模型配置

通过 Modelfile 可以创建自定义模型配置。创建 Modelfile 文件:

FROM gemma3:4b

# 设置系统提示词
SYSTEM """你是一个专业的 Python 开发助手,专门帮助解决编程问题。"""

# 设置温度参数
PARAMETER temperature 0.7

# 设置上下文长度
PARAMETER num_ctx 8192

然后创建自定义模型:

ollama create my-python-assistant -f Modelfile
ollama run my-python-assistant

技巧三:性能优化配置

根据你的硬件配置优化模型性能:

  1. GPU 加速:Ollama 会自动检测可用的 GPU。对于 NVIDIA 显卡,确保已安装 CUDA 驱动。

  2. 内存优化:对于内存有限的设备,使用量化版本模型:

ollama pull gemma3:4b-q4_0  # 4位量化版本,内存占用减少 60%
  1. 批处理优化:在 ~/.ollama/config.json 中添加:
{
  "num_batch": 512,
  "num_gpu": 1,
  "main_gpu": 0
}

技巧四:模型导入与导出

Ollama 支持导入各种格式的模型文件:

# 导入 GGUF 格式模型
ollama create mymodel --from ./path/to/model.gguf

# 导出模型为 GGUF 格式
ollama export mymodel ./mymodel.gguf

# 从 Hugging Face 导入模型
ollama create hf-model --from huggingface:username/model-name

技巧五:监控与日志

Ollama 提供了详细的运行日志和监控信息:

# 查看服务日志
tail -f ~/.ollama/logs/server.log

# 查看模型加载信息
ollama ps

# 查看 GPU 使用情况(如果支持)
ollama info

Marimo 数据科学工具中的 Ollama 集成

总结与资源

Ollama 作为本地大模型部署的瑞士军刀,为开发者和研究者提供了强大的工具链。通过本文的指南,你应该已经掌握了从安装部署到高级使用的完整流程。

核心资源路径:

高级功能源码路径:

  • 模型转换模块convert/ - 支持各种模型格式转换
  • 推理引擎llm/ - 核心推理逻辑实现
  • API 服务server/ - REST API 服务实现
  • 工具调用tools/ - AI 工具调用功能

IntelliJ IDEA 中的 AI 聊天侧边栏

无论你是想要在本地运行 AI 助手保护隐私,还是需要为特定应用集成 AI 能力,Ollama 都能提供稳定高效的解决方案。现在就开始你的本地 AI 之旅,探索开源大模型的无限可能!

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
docsdocs
暂无描述
Dockerfile
702
4.51 K
pytorchpytorch
Ascend Extension for PyTorch
Python
566
693
atomcodeatomcode
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started
Rust
546
98
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
957
955
kernelkernel
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
411
338
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.6 K
940
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.08 K
566
AscendNPU-IRAscendNPU-IR
AscendNPU-IR是基于MLIR(Multi-Level Intermediate Representation)构建的,面向昇腾亲和算子编译时使用的中间表示,提供昇腾完备表达能力,通过编译优化提升昇腾AI处理器计算效率,支持通过生态框架使能昇腾AI处理器与深度调优
C++
128
210
flutter_flutterflutter_flutter
暂无简介
Dart
948
235
Oohos_react_native
React Native鸿蒙化仓库
C++
340
387