如何快速上手Ollama:本地运行Kimi、GLM、DeepSeek等主流大模型的完整指南
你是否厌倦了依赖云端AI服务的网络延迟和隐私担忧?Ollama提供了一个简单高效的解决方案,让你在本地轻松运行Kimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen、Gemma等主流大语言模型。作为开源项目,Ollama将复杂的模型部署过程简化到极致,只需几行命令即可在个人电脑上体验与云端媲美的AI能力。无论是开发者需要本地代码助手,还是普通用户希望拥有私密AI对话,Ollama都能满足你的需求。
项目核心亮点:为什么要选择Ollama?
Ollama之所以成为本地大模型运行的首选工具,主要基于以下几个核心优势:
-
一键安装,极简部署:无需复杂的环境配置,支持macOS、Windows、Linux三大平台,通过简单的命令行即可完成安装和模型管理,大大降低了使用门槛。
-
多模型全面支持:内置对Kimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen、Gemma等主流开源模型的原生支持,覆盖从代码生成到自然对话的各类应用场景。
-
完整的开发工具链集成:提供REST API、Python/JavaScript SDK,轻松集成到现有开发工作流中,支持VS Code、Claude Code、OpenCode等主流IDE和代码助手。
-
本地化隐私保护:所有模型和数据都在本地运行,完全掌控数据流向,无需担心敏感信息泄露,特别适合企业级应用和隐私敏感场景。
-
灵活的配置选项:支持自定义模型存储路径、调整上下文长度(4k-128k)、启用飞行模式等,可根据硬件性能和需求进行个性化设置。
快速上手指南:三步完成本地AI环境搭建
第一步:一键安装Ollama
根据你的操作系统选择相应的安装方式:
macOS系统安装:
curl -fsSL https://ollama.com/install.sh | sh
Windows系统安装:
irm https://ollama.com/install.ps1 | iex
Linux系统安装:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,在终端输入ollama命令即可启动交互式菜单界面,通过上下箭头导航,回车键启动模型。
第二步:下载并运行首个模型
Ollama提供了丰富的模型库,从轻量级到高性能模型一应俱全。以下是一些热门模型的运行示例:
运行Gemma 3模型进行对话:
ollama run gemma3
运行DeepSeek模型进行代码分析:
ollama run deepseek-coder
运行Qwen模型进行中文对话:
ollama run qwen2.5:7b
首次运行会自动下载对应模型文件,下载进度会实时显示。模型文件存储在本地,后续使用无需重复下载。
第三步:集成到开发环境
Ollama与主流开发工具深度集成,提升开发效率:
在VS Code中使用Ollama: 安装VS Code扩展后,可以直接在编辑器中调用本地模型进行代码补全、解释和重构。
启动Claude Code集成:
ollama launch claude
启动OpenCode代码助手:
ollama launch opencode
第四步:配置个性化设置
通过Ollama设置界面可以优化使用体验:
- 调整上下文长度:根据内存大小设置4k-128k不等的上下文窗口
- 设置模型存储路径:自定义模型文件存储位置,避免占用系统盘空间
- 启用飞行模式:完全本地运行,禁用云服务和网络连接
- 配置网络访问:允许其他设备通过API访问本地Ollama服务
第五步:通过API集成应用
Ollama提供完整的REST API,方便集成到各种应用中:
Python集成示例:
from ollama import chat
response = chat(model='gemma3', messages=[
{
'role': 'user',
'content': '为什么天空是蓝色的?',
},
])
print(response.message.content)
JavaScript集成示例:
import ollama from "ollama";
const response = await ollama.chat({
model: "gemma3",
messages: [{ role: "user", content: "为什么天空是蓝色的?" }],
});
console.log(response.message.content);
命令行API调用:
curl http://localhost:11434/api/chat -d '{
"model": "gemma3",
"messages": [{
"role": "user",
"content": "为什么天空是蓝色的?"
}],
"stream": false
}'
进阶技巧:充分发挥Ollama的潜力
1. 多模型并行管理技巧
Ollama支持同时运行多个模型实例,通过端口配置实现并行服务。在server/server.go中可以找到服务配置的相关代码,通过修改端口绑定实现多实例部署:
# 启动不同端口的Ollama实例
OLLAMA_HOST=127.0.0.1:11435 ollama serve &
OLLAMA_HOST=127.0.0.1:11436 ollama serve &
2. 自定义模型模板与提示工程
Ollama支持通过Modelfile自定义模型行为。在template/目录下提供了各种模型的模板文件,如chatml.gotmpl、llama3-instruct.gotmpl等。你可以基于这些模板创建个性化的提示模板:
FROM gemma3:latest
# 设置系统提示词
SYSTEM """你是一个专业的编程助手,专门帮助开发者解决技术问题。"""
# 设置温度参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
3. 与数据分析工具深度集成
Ollama可以无缝集成到数据分析工作流中。如在Marimo等工具中直接调用Ollama模型进行数据分析和可视化:
通过app/tools/中的工具模块,Ollama支持网页搜索、文档处理等扩展功能,结合model/目录下的模型解析器,可以处理复杂的多模态输入。
4. 性能优化与硬件加速
根据硬件配置调整运行参数可以显著提升性能:
- GPU加速:在支持CUDA的NVIDIA显卡上启用GPU加速
- 内存优化:通过量化技术减少模型内存占用
- 批处理:调整批处理大小平衡速度与内存使用
查看llm/目录下的平台特定实现,了解如何针对不同硬件进行优化。
总结与资源
Ollama作为本地大模型运行的终极解决方案,将复杂的AI部署过程简化到极致。无论是个人开发者需要本地代码助手,还是企业需要私有化AI服务,Ollama都能提供稳定高效的解决方案。
核心资源路径:
- 官方文档:docs/目录包含完整的使用指南和API参考
- 模型转换工具:convert/目录提供了各种模型的转换实现
- 服务端实现:server/目录包含完整的API服务实现
- 客户端工具:cmd/目录提供了命令行工具和TUI界面
快速开始资源:
- 查看docs/quickstart.mdx获取快速入门指南
- 参考docs/api.md了解完整的API文档
- 探索docs/integrations/了解各种集成方案
通过Ollama,你可以在本地环境中获得与云端AI服务相媲美的体验,同时完全掌控数据安全和隐私。立即开始你的本地AI之旅,体验无延迟、高隐私的智能对话和代码生成服务。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust063- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
Hy3-previewHy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。Python00



