Ollama-python模型创建流程中的异步行为解析

2025-05-30 17:10:30作者：伍霜盼Ellen

Ollama Python Library为你的Python 3.8+项目无缝接入强大语言模型打开了一扇便捷之门。通过简单几行代码，即可与Ollama进行对话，探索知识的无限广阔。不论是询问“天空为何是蓝色”，还是实现复杂文本生成，这个库都能轻松应对。支持响应流式处理，让你的交互实时流畅，每个思考片段即时呈现。不仅如此，全面的API涵盖了从聊天、生成文字到模型管理的各项功能，满足定制化需求，无论是创建独特模型角色，还是执行异步操作，Ollama Python Library都是你探索AI语言世界的理想伙伴。让每一次对话都充满智慧的火花，立刻开始你的Ollama之旅吧！

项目地址：https://gitcode.com/GitHub_Trending/ol/ollama-python

在Ollama-python 0.4.7版本中，开发者发现了一个关于模型创建流程的重要行为差异。当使用Python客户端创建派生模型时，与直接使用CLI工具相比，会出现模型生成不完整的情况。

核心问题现象

通过Python客户端执行模型创建时：

ollama.create(model="Mario", from_="gemma3:27b", system="You are Mario")

首次执行后只会生成基础模型gemma3:27b，需要再次执行才能生成目标派生模型Mario。这与直接使用CLI命令ollama create Mario -f ./Modelfile的行为不一致，后者单次执行就能同时生成基础模型和派生模型。

技术原理分析

经过深入调查，这个问题源于Ollama服务器在处理不同客户端请求时的异步行为差异：

流式处理机制：CLI工具默认启用流式传输(stream=True)，而Python客户端的create方法默认关闭流式(stream=False)
执行阶段分离：在非流式模式下，服务器会在完成基础模型下载后立即返回响应，而派生模型的创建工作被放入后台队列
生命周期管理：Python客户端在收到第一个响应后就结束调用，无法确保派生模型创建完成

解决方案建议

对于使用Python客户端的开发者，目前有以下几种应对方案：

显式启用流式传输：

ollama.create(model="Mario", from_="gemma3:27b", system="You are Mario", stream=True)

二次验证机制：

def create_model_with_retry(model_name, base_model, system_msg):
    ollama.create(model=model_name, from_=base_model, system=system_msg)
    while model_name not in [m['name'] for m in ollama.list()['models']]:
        time.sleep(1)

使用Modelfile文件：

with open('Modelfile', 'w') as f:
    f.write(f'FROM {base_model}\nSYSTEM """{system_msg}"""')
subprocess.run(['ollama', 'create', model_name, '-f', 'Modelfile'])