LLaMA-Factory项目训练中断恢复问题分析与解决方案

2025-05-01 03:51:36作者：裘晴惠Vivianne

问题背景

在使用LLaMA-Factory进行监督微调(SFT)训练时，当训练过程中断后尝试从检查点(checkpoint)恢复训练时，系统会抛出与PyTorch权重加载相关的错误。该问题表现为无法正确加载训练状态，导致恢复训练失败。

系统会抛出以下关键错误信息：

_pickle.UnpicklingError: Weights only load failed...
Unsupported global: GLOBAL numpy.ndarray was not an allowed global by default...

该错误表明PyTorch在尝试以安全模式(weights_only=True)加载检查点文件时，遇到了不被允许的全局对象numpy.ndarray。

经过分析，该问题与以下几个因素相关：

当使用PyTorch的torch.load函数加载检查点时，新版本默认启用了weights_only=True参数，这会导致：

LLaMA-Factory项目中的训练恢复问题反映了深度学习训练框架间兼容性的复杂性。通过理解问题本质并采取适当的解决方案，用户可以有效地恢复中断的训练过程，确保模型训练的连续性。建议用户关注项目更新，及时获取最新的修复和改进。

登录后查看全文