Swift项目中GRPO强化学习训练时MathAccuracy报错解决方案

2025-05-31 04:09:04作者：秋泉律Samson

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-V4, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

在使用modelscope/swift项目进行GRPO强化学习训练时，开发者可能会遇到一个典型的错误：TypeError: MathAccuracy.__call__() missing 1 required positional argument: 'solution'。这个错误通常出现在使用accuracy作为奖励函数(reward_func)时，但数据集缺少必要的solution字段。

问题分析

当我们在Swift框架中配置GRPO强化学习训练时，accuracy奖励函数需要数据集包含solution字段来作为正确答案的参考。MathAccuracy类在计算准确率时需要将模型生成的completions与solution进行对比。如果数据集中没有这个字段，就会触发上述错误。

解决方案

针对这个问题，有两种主要的解决思路：

修改数据集结构：为数据集添加solution字段，包含每个问题的标准答案。这是最直接的解决方案，确保accuracy奖励函数能够正常工作。
调整奖励函数配置：如果不方便修改数据集，可以考虑从reward_funcs参数中移除accuracy，使用其他不需要solution字段的奖励函数，如cosine或repetition等。

最佳实践建议

在实际项目中，我们建议：

在准备数据集时，确保包含所有必要的字段。对于需要accuracy奖励函数的训练任务，solution字段是必不可少的。
仔细检查reward_funcs参数的配置，确保每个奖励函数都能与数据集结构匹配。
对于多奖励函数组合的场景，可以考虑为不同的奖励函数准备不同的数据集字段，或者实现自定义的数据预处理逻辑。

技术背景

GRPO(Generalized Reinforcement Policy Optimization)是一种强化学习算法，它通过多个奖励函数来指导模型训练。accuracy奖励函数特别适用于需要精确答案的任务，如数学问题解答或事实性问答。它的工作原理是将模型输出与标准答案进行对比，计算匹配程度作为奖励信号。