如何快速部署本地大模型：Ollama 完整使用指南

2026-04-26 11:31:06作者：冯梦姬Eddie

Ollama 是一个开源的大语言模型本地部署工具，让你能在自己的电脑上运行 Kimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen、Gemma 等主流 AI 模型。无需依赖云端 API，完全离线运行，保护隐私的同时大幅降低成本。本文将为你提供从零开始的完整部署指南，涵盖安装、配置、API 调用和高级功能，让你快速掌握本地大模型部署的核心技能。

项目核心亮点

为什么要选择 Ollama？以下是它的核心优势：

完全离线运行：所有模型都运行在你的本地设备上，无需网络连接，数据完全私有，特别适合处理敏感信息的场景。
一键模型管理：通过简单的命令行即可下载、更新、切换不同的 AI 模型，支持超过 100 种开源模型，包括最新的 Gemma 4、Qwen 3、Llama 4 等。
开发者友好集成：原生支持 VS Code、IntelliJ、PyCharm 等主流 IDE，可直接在代码编辑器中调用 AI 助手，提升开发效率。
丰富的 API 兼容性：提供与 OpenAI API 兼容的接口，现有基于 OpenAI 的应用只需修改端点即可迁移到本地模型。
跨平台支持：支持 macOS、Windows、Linux 三大操作系统，无论是个人电脑还是服务器都能轻松部署。
GPU 加速优化：自动检测并利用 NVIDIA CUDA、AMD ROCm、Apple Metal 等 GPU 加速框架，大幅提升推理速度。

快速上手指南

第一步：一键安装 Ollama

根据你的操作系统选择对应的安装命令：

macOS 和 Linux：

curl -fsSL https://ollama.com/install.sh | sh

Windows：

irm https://ollama.com/install.ps1 | iex

安装完成后，系统会自动启动 Ollama 服务。你可以通过运行 ollama 命令验证安装是否成功。

第二步：下载第一个模型

Ollama 提供了丰富的模型库。让我们从下载一个轻量级但功能强大的模型开始：

# 下载 Gemma 3 模型（约 2.7GB）
ollama pull gemma3:4b

# 或者下载 Qwen 2.5 模型
ollama pull qwen2.5:3b

下载过程会自动进行，你可以在终端看到进度条。模型文件会存储在本地，默认位置为：

macOS: ~/.ollama/models
Linux: ~/.ollama/models
Windows: C:\Users\<username>\.ollama\models

第三步：运行模型并与 AI 对话

现在让我们启动模型并进行第一次对话：

# 启动交互式聊天
ollama run gemma3:4b

# 或者直接运行一次性对话
ollama run gemma3:4b "请用中文解释什么是机器学习"

在交互式模式中，你可以像与 ChatGPT 一样与模型对话。输入 /bye 或按 Ctrl+D 退出。

第四步：配置模型设置

Ollama 提供了丰富的配置选项。打开设置界面：

# 在 macOS/Linux 中打开设置
open ~/.ollama/config.json

# 或者在 Windows 中
notepad C:\Users\<username>\.ollama\config.json

主要配置项包括：

context_length: 设置上下文长度（4k-128k tokens）
num_gpu: 指定使用的 GPU 数量
num_thread: CPU 线程数
temperature: 控制生成文本的随机性

第五步：通过 API 调用模型

Ollama 提供了兼容 OpenAI 的 REST API，方便集成到现有应用中：

# 使用 curl 测试 API
curl http://localhost:11434/api/chat -d '{
  "model": "gemma3:4b",
  "messages": [
    {"role": "user", "content": "请帮我写一个 Python 函数来计算斐波那契数列"}
  ],
  "stream": false
}'

Python 代码示例：

import requests
import json

response = requests.post('http://localhost:11434/api/chat', json={
    'model': 'gemma3:4b',
    'messages': [{'role': 'user', 'content': '你好！'}]
})
print(response.json()['message']['content'])

第六步：集成到开发环境

Ollama 与主流 IDE 深度集成。以 VS Code 为例：

安装 VS Code 扩展 "Continue" 或 "Claude Code"
在扩展设置中配置 Ollama 为模型提供者
选择你想要使用的本地模型

现在你可以在代码编辑器中直接使用 AI 辅助编程功能，包括代码补全、代码解释、bug 修复等。

进阶使用技巧

技巧一：多模型并行管理

Ollama 支持同时运行多个模型实例，适合不同场景的需求：

# 启动两个不同的模型服务
ollama serve --model gemma3:4b --port 11435
ollama serve --model qwen2.5:7b --port 11436

# 分别调用不同的模型
curl http://localhost:11435/api/chat -d '{"model":"gemma3:4b","messages":[{"role":"user","content":"问题1"}]}'
curl http://localhost:11436/api/chat -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"问题2"}]}'

技巧二：自定义模型配置

通过 Modelfile 可以创建自定义模型配置。创建 Modelfile 文件：

FROM gemma3:4b

# 设置系统提示词
SYSTEM """你是一个专业的 Python 开发助手，专门帮助解决编程问题。"""

# 设置温度参数
PARAMETER temperature 0.7

# 设置上下文长度
PARAMETER num_ctx 8192

然后创建自定义模型：

ollama create my-python-assistant -f Modelfile
ollama run my-python-assistant

技巧三：性能优化配置

根据你的硬件配置优化模型性能：

GPU 加速：Ollama 会自动检测可用的 GPU。对于 NVIDIA 显卡，确保已安装 CUDA 驱动。
内存优化：对于内存有限的设备，使用量化版本模型：

ollama pull gemma3:4b-q4_0  # 4位量化版本，内存占用减少 60%

批处理优化：在 ~/.ollama/config.json 中添加：

{
  "num_batch": 512,
  "num_gpu": 1,
  "main_gpu": 0
}

技巧四：模型导入与导出

Ollama 支持导入各种格式的模型文件：

# 导入 GGUF 格式模型
ollama create mymodel --from ./path/to/model.gguf

# 导出模型为 GGUF 格式
ollama export mymodel ./mymodel.gguf

# 从 Hugging Face 导入模型
ollama create hf-model --from huggingface:username/model-name

技巧五：监控与日志

Ollama 提供了详细的运行日志和监控信息：

# 查看服务日志
tail -f ~/.ollama/logs/server.log

# 查看模型加载信息
ollama ps

# 查看 GPU 使用情况（如果支持）
ollama info

总结与资源

Ollama 作为本地大模型部署的瑞士军刀，为开发者和研究者提供了强大的工具链。通过本文的指南，你应该已经掌握了从安装部署到高级使用的完整流程。

核心资源路径：

官方文档：docs/quickstart.mdx - 快速入门指南
API 参考：docs/api.md - 完整的 API 文档
模型文件配置：docs/modelfile.mdx - 自定义模型配置
GPU 加速指南：docs/gpu.mdx - 硬件加速配置
Docker 部署：docs/docker.mdx - 容器化部署方案
故障排除：docs/troubleshooting.mdx - 常见问题解决方案

高级功能源码路径：

模型转换模块：convert/ - 支持各种模型格式转换
推理引擎：llm/ - 核心推理逻辑实现
API 服务：server/ - REST API 服务实现
工具调用：tools/ - AI 工具调用功能

无论你是想要在本地运行 AI 助手保护隐私，还是需要为特定应用集成 AI 能力，Ollama 都能提供稳定高效的解决方案。现在就开始你的本地 AI 之旅，探索开源大模型的无限可能！

ollama

Get up and running with Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and other models.

项目地址：https://gitcode.com/GitHub_Trending/oll/ollama

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

393

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

987

如何快速部署本地大模型：Ollama 完整使用指南

项目核心亮点

快速上手指南

第一步：一键安装 Ollama

第二步：下载第一个模型

第三步：运行模型并与 AI 对话

第四步：配置模型设置

第五步：通过 API 调用模型

第六步：集成到开发环境

进阶使用技巧

技巧一：多模型并行管理

技巧二：自定义模型配置

技巧三：性能优化配置

技巧四：模型导入与导出

技巧五：监控与日志

总结与资源

热门内容推荐

最新内容推荐

项目优选

如何快速部署本地大模型：Ollama 完整使用指南

项目核心亮点

快速上手指南

第一步：一键安装 Ollama

第二步：下载第一个模型

第三步：运行模型并与 AI 对话

第四步：配置模型设置

第五步：通过 API 调用模型

第六步：集成到开发环境

进阶使用技巧

技巧一：多模型并行管理

技巧二：自定义模型配置

技巧三：性能优化配置

技巧四：模型导入与导出

技巧五：监控与日志

总结与资源

相关内容推荐

热门内容推荐

最新内容推荐

项目优选