在Ragas项目中如何正确评估RAG系统的上下文精确度和召回率

2025-05-26 10:59:10作者：彭桢灵Jeremy

在构建基于检索增强生成（RAG）的大型语言模型应用时，评估检索组件的性能至关重要。Ragas作为一个开源的RAG评估框架，提供了多种评估指标，其中上下文精确度（Context Precision）和上下文召回率（Context Recall）是两个核心指标。

评估指标的本质

上下文精确度衡量的是检索到的内容块是否真正有助于生成最终响应。换句话说，它评估检索内容对最终输出的影响程度。而上下文召回率则评估系统是否捕获了所有相关的检索信息。

评估内容的选取策略

在实际应用中，RAG系统通常会结合多种输入源：

用户指令（Instruction）
检索到的内容（Retrieved Content）
聊天历史（Chat History）

评估时需要考虑这些输入源的组合方式：

仅评估检索组件：如果目标是单纯评估检索模块的性能，那么应该只使用检索到的内容作为评估输入。
评估端到端系统：如果要评估整个RAG系统的性能，包括指令、聊天历史等上下文对最终输出的影响，那么应该使用所有输入源的组合作为评估上下文。

技术实现建议

在Ragas框架中实现评估时，开发者需要明确评估目标。如果使用LLMContextPrecisionWithoutReference等评估器，需要根据评估目标合理设置retrieved_contexts参数：

仅评估检索：传入检索到的原始内容
评估完整系统：传入经过预处理的所有上下文组合

最佳实践

分阶段评估：建议先单独评估检索组件，再评估完整系统性能
上下文标记：对不同来源的上下文进行标记，便于分析各部分的贡献
对比实验：尝试不同上下文组合方式，找到最优配置

通过合理设置评估上下文，开发者可以更准确地诊断RAG系统的性能瓶颈，从而有针对性地进行优化。理解这些评估指标的本质和应用场景，对于构建高质量的RAG应用至关重要。

ragas

Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines

项目地址：https://gitcode.com/gh_mirrors/ra/ragas

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理