OpenCompass中使用NumWorkerPartitioner时的结果汇总问题解析

2025-06-08 06:35:53作者：姚月梅Lane

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

在OpenCompass项目中进行大规模模型评估时，NumWorkerPartitioner是一个常用的任务分割工具。它能够将评估任务均匀分配到多个工作节点上并行执行，显著提高评估效率。然而，在实际使用过程中，开发者可能会遇到一个典型问题：当使用NumWorkerPartitioner切分推理层和验证层任务后，最终的结果指标无法正确汇总。

问题现象

当配置文件中使用如下设置时：

infer = dict(
    partitioner=dict(type=NumWorkerPartitioner, num_worker=8),
    runner=dict(
        type=LocalRunner,
        task=dict(type=OpenICLInferTask),
        max_num_workers=8
    )
)

eval = dict(
    partitioner=dict(type=NumWorkerPartitioner, num_worker=8),
    runner=dict(
        type=LocalRunner,
        task=dict(type=OpenICLEvalTask),
        max_num_workers=100
    )
)

执行评估后，工作目录中会为每个测试集生成多个分片结果文件（如AGIEval_0.json到AGIEval_7.json），但在最终的结果汇总(summarize)阶段，这些分片结果无法自动合并，导致最终指标显示为"-"。

问题根源

这个问题源于OpenCompass的默认结果汇总机制与NumWorkerPartitioner的工作方式不兼容。NumWorkerPartitioner会将单个数据集评估任务拆分为多个子任务并行执行，每个子任务生成独立的结果文件。而默认的结果汇总器(Summarizer)设计时可能没有考虑到这种分片结果的情况，导致无法自动识别和合并这些分片结果。

解决方案

针对这个问题，开发者可以采取以下解决方案：

自定义NumWorkerSummarizer：实现一个专门处理NumWorkerPartitioner分片结果的汇总器。这个汇总器需要：
- 识别同一数据集的分片结果文件（通过文件名模式匹配）
- 合并各分片的评估指标
- 计算整体数据集的结果
结果后处理脚本：编写一个后处理脚本，在所有评估任务完成后：
- 扫描结果目录，收集所有分片结果
- 合并统计指标
- 生成最终汇总报告
调整评估策略：如果数据集规模允许，可以：
- 减少num_worker数量
- 使用其他分区策略（如SizePartitioner）
- 避免将单个数据集拆分成过多分片