优化Ollama Docker镜像体积的技术实践

2025-04-28 11:36:34作者：裴锟轩Denise

启动并运行 Llama 2、Mistral、Gemma 和其他大型语言模型。

项目地址：https://gitcode.com/GitHub_Trending/oll/ollama

背景介绍

Ollama是一个流行的开源项目，用于运行和管理大型语言模型。在实际部署中，用户经常需要构建自定义的Docker镜像来满足特定需求。本文探讨如何优化Ollama Docker镜像的体积，使其从原始大小缩减到1GB左右。

镜像体积分析

标准的Ollama Docker镜像体积较大，主要原因是包含了多个版本的CUDA库。通过分析发现：

CUDA v11库占用约1.15GB
CUDA v12库占用约2.03GB
核心库文件体积很小，仅几MB

优化方案

方案一：选择性包含CUDA版本

通过多阶段构建，可以只保留必要的CUDA版本。例如，如果只需要CUDA v11，可以这样构建：

FROM ollama/ollama as base

FROM ubuntu:20.04
RUN apt-get update \
    && apt-get install -y ca-certificates \
    && apt-get clean \
    && rm -rf /var/lib/apt/lists/*
COPY --from=base /bin /usr/bin
COPY --from=base /lib/ollama/*.so /usr/lib/ollama/
COPY --from=base /lib/ollama/cuda_v11 /usr/lib/ollama/cuda_v11
ENV PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
ENV LD_LIBRARY_PATH=/usr/local/nvidia/lib:/usr/local/nvidia/lib64
ENV NVIDIA_DRIVER_CAPABILITIES=compute,utility
ENV NVIDIA_VISIBLE_DEVICES=all
ENV OLLAMA_HOST=0.0.0.0:11434
EXPOSE 11434
ENTRYPOINT ["/bin/ollama"]
CMD ["serve"]

这种方案可以将镜像体积从3.3GB缩减到约1.34GB。

方案二：完全移除CUDA支持

如果不需要GPU加速，可以完全移除CUDA库，仅保留CPU支持的核心库文件。这将进一步减小镜像体积，但会牺牲GPU加速性能。

性能权衡

需要注意的是，精简CUDA库会影响模型推理性能：

移除CUDA v12会限制某些新特性的使用
完全移除CUDA支持将无法使用GPU加速
移除特定优化内核(如flash attention)会降低推理速度

企业环境适配

在企业环境中，可能还需要考虑：

添加内部CA证书以解决代理问题
预加载常用模型到镜像中
配置适当的环境变量

总结

通过选择性包含CUDA版本，可以在保持核心功能的同时显著减小Ollama Docker镜像体积。开发者应根据实际需求选择适当的优化方案，平衡体积、功能和性能之间的关系。对于大多数场景，保留单一CUDA版本是一个合理的折中方案。

启动并运行 Llama 2、Mistral、Gemma 和其他大型语言模型。

项目地址：https://gitcode.com/GitHub_Trending/oll/ollama

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

flutter_flutter

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。