首页
/ OpenCompass中使用NumWorkerPartitioner时的结果汇总问题解析

OpenCompass中使用NumWorkerPartitioner时的结果汇总问题解析

2025-06-08 12:12:24作者:姚月梅Lane

在OpenCompass项目中进行大规模模型评估时,NumWorkerPartitioner是一个常用的任务分割工具。它能够将评估任务均匀分配到多个工作节点上并行执行,显著提高评估效率。然而,在实际使用过程中,开发者可能会遇到一个典型问题:当使用NumWorkerPartitioner切分推理层和验证层任务后,最终的结果指标无法正确汇总。

问题现象

当配置文件中使用如下设置时:

infer = dict(
    partitioner=dict(type=NumWorkerPartitioner, num_worker=8),
    runner=dict(
        type=LocalRunner,
        task=dict(type=OpenICLInferTask),
        max_num_workers=8
    )
)

eval = dict(
    partitioner=dict(type=NumWorkerPartitioner, num_worker=8),
    runner=dict(
        type=LocalRunner,
        task=dict(type=OpenICLEvalTask),
        max_num_workers=100
    )
)

执行评估后,工作目录中会为每个测试集生成多个分片结果文件(如AGIEval_0.json到AGIEval_7.json),但在最终的结果汇总(summarize)阶段,这些分片结果无法自动合并,导致最终指标显示为"-"。

问题根源

这个问题源于OpenCompass的默认结果汇总机制与NumWorkerPartitioner的工作方式不兼容。NumWorkerPartitioner会将单个数据集评估任务拆分为多个子任务并行执行,每个子任务生成独立的结果文件。而默认的结果汇总器(Summarizer)设计时可能没有考虑到这种分片结果的情况,导致无法自动识别和合并这些分片结果。

解决方案

针对这个问题,开发者可以采取以下解决方案:

  1. 自定义NumWorkerSummarizer: 实现一个专门处理NumWorkerPartitioner分片结果的汇总器。这个汇总器需要:

    • 识别同一数据集的分片结果文件(通过文件名模式匹配)
    • 合并各分片的评估指标
    • 计算整体数据集的结果
  2. 结果后处理脚本: 编写一个后处理脚本,在所有评估任务完成后:

    • 扫描结果目录,收集所有分片结果
    • 合并统计指标
    • 生成最终汇总报告
  3. 调整评估策略: 如果数据集规模允许,可以:

    • 减少num_worker数量
    • 使用其他分区策略(如SizePartitioner)
    • 避免将单个数据集拆分成过多分片

最佳实践建议

  1. 对于超大规模评估任务,推荐使用自定义的NumWorkerSummarizer方案,这能保持并行评估的高效性同时确保结果正确汇总。

  2. 实现自定义汇总器时,需要注意:

    • 结果文件的命名规范
    • 指标合并的逻辑(特别是对于accuracy等需要加权平均的指标)
    • 错误处理和部分结果缺失的情况
  3. 在评估配置中明确记录使用的分区策略和对应的汇总器,便于后续结果复现和问题排查。

通过合理设计结果汇总机制,开发者可以充分发挥OpenCompass的并行评估能力,同时确保最终评估结果的准确性和完整性。

登录后查看全文
热门项目推荐
相关项目推荐