Modelscope/SWIFT训练中reward函数样本数量不固定的问题分析

2025-05-31 13:16:46作者：管翌锬

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

问题现象

在使用Modelscope/SWIFT框架进行强化学习训练时，用户报告了一个有趣的现象：在训练初期，reward函数接收到的样本数量与预期一致（如num_generation=8，per_device_batch_size=8，8卡训练时len(completions)=8），但随着训练进行，reward函数接收到的样本数量会突然变为1。

原因分析

经过技术分析，这个问题主要与SWIFT框架的评估机制有关：

默认评估批大小设置：SWIFT框架默认将per_device_eval_batch_size设置为1，这意味着在评估阶段，每个设备每次只处理1个样本。
数据集分割影响：当设置了split_dataset_ratio参数时，框架会在训练过程中自动划分评估集。当评估阶段触发时，reward函数会以评估批大小（默认为1）接收样本，而不是训练时的批大小。
训练/评估模式切换：深度学习框架通常会在训练过程中穿插评估阶段，以监控模型性能。这种模式切换会导致数据处理管道的批大小发生变化。

解决方案

用户发现通过设置--split_dataset_ratio 0.0可以解决这个问题，这是因为：

将split_dataset_ratio设为0表示不划分评估集，整个数据集都用于训练。
这样框架就不会进入评估模式，reward函数始终以训练批大小接收样本。
如果确实需要评估集，可以调整per_device_eval_batch_size参数，使其与训练批大小一致。

最佳实践建议

明确训练目标：如果目标是纯训练而不需要中间评估，建议将split_dataset_ratio设为0。
批大小一致性：如需保留评估功能，应确保per_device_eval_batch_size与训练批大小一致，避免数据处理逻辑不一致。
版本兼容性检查：不同版本的SWIFT框架可能有不同的默认参数设置，升级时应注意检查相关参数的默认值。
日志监控：建议在reward函数中添加日志，记录每次调用的样本数量，便于及时发现和诊断类似问题。

技术背景

在强化学习训练中，reward函数的调用频率和样本数量直接影响训练效率和稳定性。现代深度学习框架通常采用异步数据加载和多阶段处理管道，理解这些机制有助于更好地配置训练参数。SWIFT框架作为ModelScope生态系统的一部分，在保持灵活性的同时，也提供了一些合理的默认设置，开发者需要根据具体需求进行调整。

swift

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文