如何快速上手Ollama：本地运行Kimi、GLM、DeepSeek等主流大模型的完整指南

2026-04-24 13:44:45作者：农烁颖Land

你是否厌倦了依赖云端AI服务的网络延迟和隐私担忧？Ollama提供了一个简单高效的解决方案，让你在本地轻松运行Kimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen、Gemma等主流大语言模型。作为开源项目，Ollama将复杂的模型部署过程简化到极致，只需几行命令即可在个人电脑上体验与云端媲美的AI能力。无论是开发者需要本地代码助手，还是普通用户希望拥有私密AI对话，Ollama都能满足你的需求。

项目核心亮点：为什么要选择Ollama？

Ollama之所以成为本地大模型运行的首选工具，主要基于以下几个核心优势：

一键安装，极简部署：无需复杂的环境配置，支持macOS、Windows、Linux三大平台，通过简单的命令行即可完成安装和模型管理，大大降低了使用门槛。
多模型全面支持：内置对Kimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen、Gemma等主流开源模型的原生支持，覆盖从代码生成到自然对话的各类应用场景。
完整的开发工具链集成：提供REST API、Python/JavaScript SDK，轻松集成到现有开发工作流中，支持VS Code、Claude Code、OpenCode等主流IDE和代码助手。
本地化隐私保护：所有模型和数据都在本地运行，完全掌控数据流向，无需担心敏感信息泄露，特别适合企业级应用和隐私敏感场景。
灵活的配置选项：支持自定义模型存储路径、调整上下文长度（4k-128k）、启用飞行模式等，可根据硬件性能和需求进行个性化设置。

快速上手指南：三步完成本地AI环境搭建

第一步：一键安装Ollama

根据你的操作系统选择相应的安装方式：

macOS系统安装：

curl -fsSL https://ollama.com/install.sh | sh

Windows系统安装：

irm https://ollama.com/install.ps1 | iex

Linux系统安装：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，在终端输入ollama命令即可启动交互式菜单界面，通过上下箭头导航，回车键启动模型。

第二步：下载并运行首个模型

Ollama提供了丰富的模型库，从轻量级到高性能模型一应俱全。以下是一些热门模型的运行示例：

运行Gemma 3模型进行对话：

ollama run gemma3

运行DeepSeek模型进行代码分析：

ollama run deepseek-coder

运行Qwen模型进行中文对话：

ollama run qwen2.5:7b

首次运行会自动下载对应模型文件，下载进度会实时显示。模型文件存储在本地，后续使用无需重复下载。

第三步：集成到开发环境

Ollama与主流开发工具深度集成，提升开发效率：

在VS Code中使用Ollama： 安装VS Code扩展后，可以直接在编辑器中调用本地模型进行代码补全、解释和重构。

启动Claude Code集成：

ollama launch claude

启动OpenCode代码助手：

ollama launch opencode

第四步：配置个性化设置

通过Ollama设置界面可以优化使用体验：

调整上下文长度：根据内存大小设置4k-128k不等的上下文窗口
设置模型存储路径：自定义模型文件存储位置，避免占用系统盘空间
启用飞行模式：完全本地运行，禁用云服务和网络连接
配置网络访问：允许其他设备通过API访问本地Ollama服务

第五步：通过API集成应用

Ollama提供完整的REST API，方便集成到各种应用中：

Python集成示例：

from ollama import chat

response = chat(model='gemma3', messages=[
  {
    'role': 'user',
    'content': '为什么天空是蓝色的？',
  },
])
print(response.message.content)

JavaScript集成示例：

import ollama from "ollama";

const response = await ollama.chat({
  model: "gemma3",
  messages: [{ role: "user", content: "为什么天空是蓝色的？" }],
});
console.log(response.message.content);

命令行API调用：

curl http://localhost:11434/api/chat -d '{
  "model": "gemma3",
  "messages": [{
    "role": "user",
    "content": "为什么天空是蓝色的？"
  }],
  "stream": false
}'

进阶技巧：充分发挥Ollama的潜力

1. 多模型并行管理技巧

Ollama支持同时运行多个模型实例，通过端口配置实现并行服务。在server/server.go中可以找到服务配置的相关代码，通过修改端口绑定实现多实例部署：

# 启动不同端口的Ollama实例
OLLAMA_HOST=127.0.0.1:11435 ollama serve &
OLLAMA_HOST=127.0.0.1:11436 ollama serve &

2. 自定义模型模板与提示工程

Ollama支持通过Modelfile自定义模型行为。在template/目录下提供了各种模型的模板文件，如chatml.gotmpl、llama3-instruct.gotmpl等。你可以基于这些模板创建个性化的提示模板：

FROM gemma3:latest

# 设置系统提示词
SYSTEM """你是一个专业的编程助手，专门帮助开发者解决技术问题。"""

# 设置温度参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9

3. 与数据分析工具深度集成

Ollama可以无缝集成到数据分析工作流中。如在Marimo等工具中直接调用Ollama模型进行数据分析和可视化：

通过app/tools/中的工具模块，Ollama支持网页搜索、文档处理等扩展功能，结合model/目录下的模型解析器，可以处理复杂的多模态输入。

4. 性能优化与硬件加速

根据硬件配置调整运行参数可以显著提升性能：

GPU加速：在支持CUDA的NVIDIA显卡上启用GPU加速
内存优化：通过量化技术减少模型内存占用
批处理：调整批处理大小平衡速度与内存使用

查看llm/目录下的平台特定实现，了解如何针对不同硬件进行优化。

总结与资源

Ollama作为本地大模型运行的终极解决方案，将复杂的AI部署过程简化到极致。无论是个人开发者需要本地代码助手，还是企业需要私有化AI服务，Ollama都能提供稳定高效的解决方案。

核心资源路径：

官方文档：docs/目录包含完整的使用指南和API参考
模型转换工具：convert/目录提供了各种模型的转换实现
服务端实现：server/目录包含完整的API服务实现
客户端工具：cmd/目录提供了命令行工具和TUI界面

快速开始资源：

查看docs/quickstart.mdx获取快速入门指南
参考docs/api.md了解完整的API文档
探索docs/integrations/了解各种集成方案

通过Ollama，你可以在本地环境中获得与云端AI服务相媲美的体验，同时完全掌控数据安全和隐私。立即开始你的本地AI之旅，体验无延迟、高隐私的智能对话和代码生成服务。

ollama

Get up and running with Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and other models.

项目地址：https://gitcode.com/GitHub_Trending/oll/ollama

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

425

377

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.65 K

970