OpenCompass评测框架中多轮模型调用的实现方案解析

2025-06-08 16:13:01作者：农烁颖Land

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

OpenCompass作为大模型评测的重要工具，其灵活的架构设计能够满足各类复杂评测需求。本文将以用户贡献的UHGEval评测集为例，深入剖析如何在单条评测数据中实现多轮模型调用的技术方案。

多轮调用场景的技术挑战

在传统的大模型评测中，通常采用"单输入-单输出"的简单模式。但在某些特殊评测场景下，如内容检测任务，需要对同一条数据构造多个不同的prompt进行多次模型调用：

判别式评测需求：需要分别验证模型对不同内容的判断能力
复合型评分标准：最终得分需要综合多次调用的结果
上下文关联性：多次调用间存在逻辑关联，不能简单拆分为独立任务

OpenCompass的解决方案架构

OpenCompass通过以下技术设计支持这类复杂评测场景：

1. 自定义评测器(Evaluator)实现

开发者可以继承BaseEvaluator类，在evaluate方法中实现多轮调用逻辑。核心代码结构如下：

def evaluate(self, data_point):
    # 第一轮调用：检测特定内容
    ans1, reason1 = model.analyze_content(data_point.text1)
    
    # 第二轮调用：检测对比内容
    ans2, reason2 = model.analyze_content(data_point.text2)
    
    # 综合判断
    return ans1 is True and ans2 is False

2. 模型调用封装

通过ModelWrapper层对底层模型接口进行统一封装，确保：

多次调用间的状态隔离
调用结果的标准化处理
异常情况的统一捕获

3. 结果聚合机制

评测框架提供灵活的结果聚合方式，支持：

布尔型结果组合(AND/OR)
数值型结果加权计算
多维度评分汇总

实际应用建议

对于需要实现类似UHGEval评测集的开发者，建议采用以下最佳实践：

明确调用边界：合理划分每次模型调用的输入输出
设计容错机制：处理部分调用失败的情况
优化prompt设计：确保多次调用间的prompt一致性
性能考量：注意多次调用带来的时间成本增加

OpenCompass的这种设计充分体现了其作为专业评测框架的扩展性和灵活性，能够支持从简单到复杂的各类评测需求，为全面评估大模型能力提供了可靠的技术基础。

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架