Ragas项目中Faithfulness指标计算问题的分析与解决

2025-05-26 06:25:36作者：牧宁李

Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines

项目地址：https://gitcode.com/gh_mirrors/ra/ragas

问题背景

在Ragas项目（一个用于评估检索增强生成系统的开源框架）中，用户在使用Faithfulness（忠实度）指标评估单个样本时遇到了问题。当按照官方文档示例执行代码时，系统会返回警告信息"WARNING:ragas.metrics._faithfulness:No statements were generated from the answer."并输出NaN分数。

问题根源分析

经过深入分析，发现问题的核心在于Ragas框架中句子分割逻辑的不一致性。具体表现为：

句子分割标识符不匹配：Faithfulness指标要求回答中的句子必须以特定标点符号（如句号、感叹号等）结尾才能被识别为有效语句。当回答字符串不包含这些标识符时，系统会返回空响应。
指标间逻辑不一致：
- AnswerCorrectness指标仅检查以句号结尾的句子
- Faithfulness指标检查多种标点符号（句号、中文句号、感叹号等）
- FactualCorrectness指标则完全不进行此类过滤

技术解决方案

针对这一问题，Ragas开发团队已经通过PR #1826修复了这一问题，主要改进包括：

统一了各指标间的句子分割逻辑
优化了语句生成的处理流程
增强了系统对不完整标点符号回答的兼容性

临时解决方案建议

在等待官方版本发布期间，用户可以采取以下临时解决方案：

确保回答包含标点符号：在回答字符串末尾添加句号或其他有效标点符号
自定义指标子类：通过继承原有指标类并重写_create_statements()方法，移除标点符号过滤逻辑
预处理回答文本：在评估前对回答文本进行标准化处理，确保包含必要的标点符号

最佳实践建议

为避免类似问题，建议开发者在实际应用中：

对生成式AI的输出进行标准化预处理
在构建评估数据集时确保回答文本格式规范
考虑实现自定义的句子分割逻辑以适应特定领域需求

总结

这一问题揭示了评估框架中预处理逻辑一致性的重要性。Ragas团队的快速响应和修复体现了开源社区对用户体验的重视。随着评估指标的不断完善，Ragas框架在检索增强生成系统评估领域的实用性和可靠性将进一步提升。

Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines

项目地址：https://gitcode.com/gh_mirrors/ra/ragas

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理