Ragas项目中的摘要评分公式优化思路

2025-05-26 16:52:13作者：郜逊炳

摘要评分公式的问题发现

在Ragas项目的实际应用中，开发者发现摘要评分(Summarization Score)的计算公式存在不合理之处。该评分由问答得分(QA Score)和简洁度得分(Conciseness Score)两部分组成，但这两个指标的特性存在矛盾：

问答得分(QA Score)的取值范围是0到1，分值越高表示质量越好
简洁度得分(Conciseness Score)理论上取值范围是0到无穷大，分值越低表示越简洁

直接将这两个指标取平均值作为最终评分显然不合理，因为它们的量纲和优化方向不一致。

问题分析与解决方案

简洁度得分的标准化处理

Ragas项目组经过讨论，决定对简洁度得分进行标准化处理，使其也落在0到1的范围内。具体实现方式为：

简洁度得分 = 1 - (摘要长度 / 原文长度)

这种处理方式有两个优点：

将得分范围标准化到0-1区间
保持了"分值越高表示越简洁"的特性

边界情况的处理

在实际应用中，可能会出现摘要长度超过原文长度的特殊情况。针对这种边界情况，项目组决定：

当摘要长度超过原文长度时，直接赋予0分
使用min函数确保计算不会出现负值

权重分配的可配置化

最初的设计中，问答得分和简洁度得分各占50%权重。但项目组意识到不同应用场景可能需要不同的权重分配，因此增加了权重系数(coeff)参数：

最终得分 = coeff × QA得分 + (1-coeff) × (1 - 简洁度得分)

这种设计使得用户可以根据具体需求调整两个指标的相对重要性，提高了评分的灵活性。

技术实现细节

在代码层面，Ragas项目通过以下方式实现了优化后的评分公式：

使用异步方法提取关键短语和生成问题
计算问答得分时考虑答案质量
计算简洁度得分时加入长度惩罚机制
最终通过加权平均得到综合评分

未来优化方向

项目组认识到摘要评分本身是一个复杂的问题，即使是人工评估也存在困难。未来计划：

引入基于排名的评估方法，这可能更适合摘要质量评估
探索更多评估维度，如信息覆盖率、流畅性等
考虑使用机器学习方法自动学习各维度的权重

总结

通过对Ragas项目摘要评分公式的优化，解决了原始设计中指标不一致的问题，使评分更加合理和科学。同时，通过引入可配置权重，提高了评分的灵活性，能够适应不同场景的需求。这一改进过程展示了开源项目中如何通过社区协作解决技术问题，并不断优化算法设计。

ragas

Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines

项目地址：https://gitcode.com/gh_mirrors/ra/ragas

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力