Swift项目中混合精度训练参数传递问题的分析与解决

2025-05-31 07:36:26作者：晏闻田Solitary

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-V4, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

背景介绍

在深度学习模型训练过程中，混合精度训练（Mixed Precision Training）是一种常用的优化技术，它通过结合使用16位和32位浮点数来加速训练过程并减少显存占用。然而，在实际应用中，不同硬件对精度的支持程度不同，不合理的精度设置可能导致数值不稳定甚至训练失败。

问题现象

在Swift项目（一个基于transformers的深度学习训练框架）中，用户发现当使用V100显卡进行训练时，即使通过命令行参数明确指定--fp16 false，transformers库中的TrainingArguments仍然会将fp16强制设置为True。这导致在V100显卡上执行矩阵乘法运算时，32位浮点数被自动转换为16位浮点数，造成精度损失，最终产生NaN错误。

技术分析

问题根源

参数传递机制：Swift框架在初始化训练参数时，会根据torch_dtype自动设置fp16和bf16标志。然而，当用户显式指定--fp16 false时，这一设置未能正确传递到最终的TrainingArguments中。
硬件限制：V100显卡虽然支持FP16运算，但不支持BF16运算。当使用FP16时，数值范围较小（约5.96e-8到65504），容易在深度神经网络中产生下溢或上溢问题，导致NaN错误。
transformers库行为：transformers库的TrainingArguments会根据fp16和bf16参数设置环境变量ACCELERATE_MIXED_PRECISION，这一行为会覆盖用户的显式设置。

解决方案

Swift项目团队通过修改swift/llm/argument/base_args/model_args.py文件中的_init_torch_dtype方法解决了这一问题：

增加了对显式fp16=False设置的处理逻辑
确保用户指定的精度参数能够正确传递到TrainingArguments
保持了与原有逻辑的兼容性

最佳实践建议

硬件适配：对于V100等不支持BF16的显卡，建议使用FP32进行训练以确保数值稳定性。

参数设置：在Swift项目中，可以通过以下方式确保精度设置正确：

swift sft \
    --model $model_id_or_path \
    --dataset $dataset_path \
    --torch_dtype float32 \
    --fp16 false

数值稳定性检查：训练过程中应定期检查loss值是否出现NaN，这可能是精度问题的早期信号。

技术意义

这个问题的解决不仅修复了一个具体的参数传递bug，更重要的是：

提高了框架在不同硬件环境下的鲁棒性
增强了用户对训练精度的控制能力
为后续类似问题的解决提供了参考模式

总结

深度学习框架中的精度控制是一个复杂而重要的问题，需要框架开发者充分考虑不同硬件特性、用户需求和数值稳定性之间的平衡。Swift项目团队通过这次修复，展示了他们对这些因素的全面考虑，为用户提供了更加稳定可靠的训练体验。

swift