OpenCompass项目评测数据集添加指南

2025-06-08 09:33:54作者：侯霆垣

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

在OpenCompass项目中添加自定义评测数据集是模型评估的重要环节。本文将以一个实际案例为基础，详细介绍如何在OpenCompass项目中正确添加新的评测数据集。

数据集添加流程

1. 创建数据集类

首先需要创建一个继承自BaseDataset的自定义数据集类。这个类主要负责数据加载和预处理工作。以下是一个典型的多选题数据集实现示例：

import csv
import os.path as osp
from datasets import Dataset, DatasetDict
from opencompass.registry import LOAD_DATASET
from .base import BaseDataset

@LOAD_DATASET.register_module()
class MyDataset(BaseDataset):
    @staticmethod
    def load(path: str, name: str):
        dataset = DatasetDict()
        for split in ['dev', 'test']:
            raw_data = []
            filename = osp.join(path, split, f'{name}.csv')
            with open(filename, encoding='utf-8') as f:
                reader = csv.reader(f)
                _ = next(reader)  # 跳过标题行
                for row in reader:
                    assert len(row) == 7
                    raw_data.append({
                        'question': row[1],
                        'A': row[2],
                        'B': row[3],
                        'C': row[4],
                        'D': row[5],
                        'answer': row[6],
                    })
            dataset[split] = Dataset.from_list(raw_data)
        return dataset

2. 注册数据集类

在所在目录的__init__.py文件中添加导入语句，确保数据集类能够被正确注册：

from .mydataset import *  # noqa: F401, F403

3. 准备数据文件

将数据集文件放置在项目的data目录下，按照dev和test子目录组织。每个CSV文件应包含题目、选项和答案等字段。

4. 创建配置文件

配置文件是OpenCompass评估流程的核心，需要定义评估的具体参数。以下是多选题评估的典型配置：

from opencompass.openicl.icl_prompt_template import PromptTemplate
from opencompass.openicl.icl_retriever import FixKRetriever
from opencompass.openicl.icl_inferencer import PPLInferencer
from opencompass.openicl.icl_evaluator import AccEvaluator
from opencompass.datasets import MyDataset

mydataset_subject_mapping = {
    'agronomy': '农学',
    'anatomy': '解剖学'
}

mydataset_all_sets = list(mydataset_subject_mapping.keys())

mydataset_datasets = []
for _name in mydataset_all_sets:
    _ch_name = mydataset_subject_mapping[_name]
    mydataset_infer_cfg = dict(
        ice_template=dict(
            type=PromptTemplate,
            template={
                answer: dict(
                    begin="</E>",
                    round=[
                        dict(
                            role="HUMAN",
                            prompt=f"以下是关于{_ch_name}的单项选择题，请直接给出正确答案的选项。\n题目：{{question}}\nA. {{A}}\nB. {{B}}\nC. {{C}}\nD. {{D}}"
                        ),
                        dict(role="BOT", prompt=f'答案是: {answer}'),
                    ])
                for answer in ["A", "B", "C", "D"]
            },
            ice_token="</E>",
        ),
        retriever=dict(type=FixKRetriever, fix_id_list=[0, 1, 2, 3, 4]),
        inferencer=dict(type=PPLInferencer),
    )

    mydataset_eval_cfg = dict(evaluator=dict(type=AccEvaluator))

    mydataset_datasets.append(
        dict(
            type=MyDataset,
            path="./data/mydataset/",
            name=_name,
            abbr=f"mydataset-{_name}",
            reader_cfg=dict(
                input_columns=["question", "A", "B", "C", "D"],
                output_column="answer",
                train_split="dev",
                test_split='test'),
            infer_cfg=mydataset_infer_cfg,
            eval_cfg=mydataset_eval_cfg,
        ))

常见问题解决

1. 数据集加载失败

如果遇到"Partitioned into 0 tasks"错误，通常是因为配置文件中的数据集变量名不符合OpenCompass的命名规范。确保配置文件中导出的数据集变量名以"_datasets"结尾。

2. 评估结果未生成

检查以下几点：

配置文件是否正确引用了数据集类
数据文件路径是否正确
评估配置中的输入输出列名是否与数据文件匹配
确保运行命令中指定的数据集名称与配置文件名称一致

3. 日志文件缺失

如果未生成日志目录，通常意味着评估流程未能正确启动。检查运行命令和配置文件，确保所有参数设置正确。

最佳实践建议

遵循OpenCompass的命名规范，特别是配置文件和变量名的后缀要求
在添加新数据集前，先参考项目中的现有数据集实现
使用小规模数据集进行测试，验证流程正确后再进行完整评估
确保数据文件的格式与代码中的解析逻辑一致
对于多选题评估，注意prompt模板的设计要清晰明确

通过以上步骤和注意事项，开发者可以顺利地在OpenCompass项目中添加自定义评测数据集，为模型评估提供更全面的测试基准。

opencompass

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

登录后查看全文

OpenCompass项目评测数据集添加指南

数据集添加流程

1. 创建数据集类

2. 注册数据集类

3. 准备数据文件

4. 创建配置文件

常见问题解决

1. 数据集加载失败

2. 评估结果未生成

3. 日志文件缺失

最佳实践建议

热门内容推荐

最新内容推荐

项目优选

OpenCompass项目评测数据集添加指南

数据集添加流程

1. 创建数据集类

2. 注册数据集类

3. 准备数据文件

4. 创建配置文件

常见问题解决

1. 数据集加载失败

2. 评估结果未生成

3. 日志文件缺失

最佳实践建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选