Unsloth项目中的模型保存问题分析与解决方案

2025-05-03 14:22:05作者：冯爽妲Honey

5X faster 60% less memory QLoRA finetuning

项目地址：https://gitcode.com/GitHub_Trending/un/unsloth

问题背景

在使用Unsloth项目进行模型训练时，用户遇到了模型保存失败的问题。具体表现为在尝试将4bit量化和LoRA适配器合并为16bit模型时，有时会成功保存完整的模型文件，有时则会出现部分文件缺失或完全失败的情况。

错误现象分析

从用户提供的日志中可以看到两种典型的错误表现：

部分文件缺失：模型保存后，merged_16bit目录中缺少部分safetensors文件，如只有model-00001和model-00002，缺少后续的分片文件。
存储空间不足错误：系统抛出"SafetensorError: Error while serializing: IoError(Os { code: 28, kind: StorageFull, message: "No space left on device" })"的错误，表明磁盘空间不足。

技术原因探究

存储空间问题

模型保存过程中需要临时占用大量磁盘空间，特别是在以下情况：

将4bit量化模型与LoRA适配器合并为16bit模型时
保存大型语言模型的分片文件时
同时保存tokenizer和配置文件时

内存管理机制

Unsloth在保存模型前会预估所需内存，如日志中显示的"Will use up to 769.01 out of 1121.81 RAM for saving"。然而，这种预估可能不够准确，特别是在：

系统同时运行其他进程时
临时文件占用空间未被及时清理时
文件系统存在碎片化问题时

解决方案

1. 确保足够的存储空间

检查并清理磁盘空间，确保有足够容量保存完整模型
考虑使用更大的存储设备或云存储
定期清理训练过程中产生的临时文件

2. 优化保存流程

可以采用分段保存策略：

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_id,
    max_seq_length=max_seq_length,
    dtype=torch.bfloat16,
    load_in_4bit=False,
)
model = model.merge_and_unload()
model = model.to(torch.bfloat16)
model.save_pretrained(save_dir)
tokenizer.save_pretrained(save_dir)

3. 替代保存方案

当本地存储空间不足时，可以考虑：

直接保存到Hugging Face Hub
使用云存储服务如AWS S3或Google Cloud Storage
先保存为较小格式(如8bit)再转换

最佳实践建议

监控存储空间：在训练过程中实时监控磁盘使用情况
分阶段保存：先保存检查点，再单独进行模型合并操作
使用专用存储：为大型模型训练配置专用存储设备
错误处理机制：在训练脚本中添加存储空间检查和处理逻辑

总结

Unsloth项目中的模型保存问题主要源于存储空间管理和内存预估机制。通过合理规划存储空间、优化保存流程以及实施有效的监控措施，可以显著提高模型保存的成功率。对于大型语言模型的训练任务，建议始终预留比模型大小多50%的额外空间以确保操作顺利完成。

5X faster 60% less memory QLoRA finetuning

项目地址：https://gitcode.com/GitHub_Trending/un/unsloth

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

ohos_react_native

React Native鸿蒙化仓库