Swift项目中InternVL3-38B模型DPO训练问题分析与解决方案

2025-05-31 06:02:15作者：咎岭娴Homer

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

问题背景

在Swift项目中使用InternVL3-38B模型进行DPO（Direct Preference Optimization）训练时，开发者遇到了两个主要的技术挑战：模型加载阶段的TypeError错误和训练过程中的显存不足问题。

问题一：模型加载错误

错误现象

在加载InternVL3-38B模型时，系统抛出TypeError异常，提示"NoneType object is not iterable"。这一错误发生在transformers库的caching_allocator_warmup函数中，具体是在处理模型并行计划(_tp_plan)时发生的。

根本原因

该问题的根源在于transformers库在模型并行训练环境下尝试访问模型的_tp_plan属性，但该属性在某些情况下可能为None。当_tp_plan为None时，代码尝试对其进行迭代操作，导致了TypeError异常。

解决方案

可以通过修改transformers库的源代码来解决这个问题。具体修改方式是将tp_plan_regex直接设置为None，避免对可能为None的_tp_plan属性进行迭代操作。

# 修改前
tp_plan_regex = (
    re.compile("|".join([re.escape(plan) for plan in model._tp_plan]))
    if _torch_distributed_available and torch.distributed.is_initialized()
    else None
)

# 修改后
tp_plan_regex = None

问题二：显存不足问题

问题描述

即使在使用了4张90GB显存的GPU进行LoRA训练的情况下，系统仍然报告CUDA out of memory错误。这与之前版本仅需2张卡就能完成DPO训练的经验不符。

原因分析

显存不足问题可能由以下几个因素导致：

模型参数规模过大（38B参数）
批处理大小和梯度累积步数的设置
显存管理策略不够优化
新版本可能引入了额外的显存开销

解决方案

针对显存不足问题，可以采取以下措施：

使用更高效的显存管理策略：将deepspeed配置从zero2改为zero3，zero3策略能更有效地分割模型参数，减少单卡显存占用。

--deepspeed zero3

调整训练参数：
- 适当减少批处理大小(per_device_train_batch_size)
- 增加梯度累积步数(gradient_accumulation_steps)
- 使用更低的精度(torch_dtype)
优化LoRA配置：
- 降低LoRA的rank值(lora_rank)
- 调整LoRA的alpha值(lora_alpha)

最佳实践建议

大型模型训练策略：
- 对于超过30B参数的大模型，建议优先考虑使用deepspeed zero3策略
- 在资源有限的情况下，可以尝试模型并行或流水线并行技术
显存监控与优化：
- 训练前使用nvidia-smi监控显存使用情况
- 逐步增加批处理大小，找到最优配置
- 考虑使用梯度检查点技术减少显存占用
版本兼容性：
- 注意不同版本库之间的兼容性问题
- 及时关注项目更新日志，了解API变更

总结

在Swift项目中使用InternVL3-38B这类大型模型进行DPO训练时，开发者需要特别注意模型加载和显存管理两个关键环节。通过合理配置deepspeed策略和调整训练参数，可以有效解决大部分资源相关的问题。同时，对于开源库中的一些边界情况，必要时可以通过修改源代码来规避问题。这些经验不仅适用于InternVL3-38B模型，对于其他大型语言模型的训练也具有参考价值。

swift

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文