Ragas项目中自定义评分量表的实现与问题分析

2025-05-26 14:54:20作者：蔡丛锟

引言

在Ragas项目的实际应用中，用户经常需要根据特定场景定制评估标准。本文深入探讨了Ragas框架中RubricsScore模块的使用方法，分析了当前版本中存在的评分范围异常问题，并提供了有效的解决方案。

自定义评分量表的基本实现

Ragas框架允许用户通过RubricsScore类创建自定义评估标准。标准的实现方式是通过字典结构定义评分等级及其描述：

rubric = {
    "score1_description": "不符合关键指导原则",
    "score2_description": "部分符合但存在明显遗漏或误解",
    "score3_description": "完全符合指导原则"
}

理论上，这种定义方式应该产生1-3分的评分结果。然而在实际测试中，系统却输出了超出定义范围的分数（如5分甚至8分），这表明当前版本存在评分范围控制的缺陷。

问题现象与复现

多位用户报告了类似的问题现象：

定义3级评分标准却得到5分输出
定义5级评分标准却得到7分输出
极端情况下出现0分或8分等异常值

通过以下测试用例可以稳定复现该问题：

sample = SingleTurnSample(
    user_input="西班牙的首都是哪里？",
    response="西班牙的首都是马德里。",
    reference="西班牙的首都是马德里。"
)

scorer = RubricsScore(rubrics=rubric, llm=evaluator_llm)
score = await scorer.single_turn_ascore(sample)  # 预期3分，实际得到5分

技术分析

经过代码审查，发现问题根源在于：

评分标准化处理缺失：系统未对LLM输出的原始评分进行范围校验和标准化
提示工程不完善：给LLM的评分指令未明确限制输出范围
后处理逻辑不足：缺少对异常值的过滤和修正机制

解决方案

目前推荐的临时解决方案包括：

明确评分范围提示：在评分标准描述中显式注明范围限制
增加后处理校验：对输出分数进行范围检查和修正
使用评估数据集方式：通过evaluate方法可能获得更稳定的结果

完整示例：

rubrics = {
    "score1_description": "（评分范围1-3）回答不符合参考内容的关键点",
    "score2_description": "（评分范围1-3）回答部分符合但存在明显遗漏",
    "score3_description": "（评分范围1-3）回答完全符合参考内容"
}

result = evaluate(
    dataset=evaluation_dataset,
    metrics=[RubricsScore(llm=evaluator_llm, rubrics=rubrics)],
    llm=evaluator_llm,
)