Swift项目中GRPO训练Eval阶段VLLM引擎KeyError问题解析

2025-05-31 18:34:21作者：钟日瑜

问题背景

在Swift项目的GRPO（Grouped Reinforcement Policy Optimization）训练过程中，当模型进入评估（eval）阶段时，系统会稳定地出现VLLM引擎的KeyError错误。这个问题在不同规模的模型和数据集上都能复现，表明这是一个系统性而非偶发性的问题。

错误发生时，系统会抛出AssertionError和KeyError两种异常。关键错误信息显示在VLLM引擎调度过程中出现了断言失败，随后在结果收集阶段出现了键值不存在的错误（KeyError: '22b64bc96775490d91687db78401bb68'）。

从错误堆栈可以分析出以下几个关键点：

调度器断言失败：在VLLM引擎的调度过程中，assert len(running_scheduled.prefill_seq_groups) == 0这一断言失败，表明调度器状态与预期不符。
结果收集失败：在尝试收集推理结果时，系统无法找到对应的请求ID（'22b64bc96775490d91687db78401bb68'），这表明请求与响应之间的映射关系出现了问题。
异步处理问题：从代码路径可以看出，这个问题发生在异步生成（async_generate）模式下，涉及多线程/多进程的协同工作。

经过深入分析，这个问题主要由以下几个因素共同导致：

针对这个问题，开发团队实施了以下修复措施：

这个问题的解决过程给我们带来了几个重要的技术启示：

基于这个案例，我们建议开发者在处理类似问题时：

这个问题的高效解决展现了Swift项目团队对技术问题的深入理解和快速响应能力，也为类似分布式训练系统的开发提供了宝贵的经验。

登录后查看全文