使用RAGAS评估本地RAG系统时的上下文选择策略

2025-05-26 07:29:02作者：霍妲思

在构建和评估基于检索增强生成(RAG)的系统时，一个关键问题是如何正确选择评估过程中使用的上下文数据。本文将深入探讨这一技术细节，帮助开发者理解在本地RAG系统中进行有效评估的最佳实践。

评估数据集的组成要素

一个完整的RAG评估数据集通常包含三个核心组成部分：

问题集：需要RAG系统回答的查询问题
上下文：系统检索到的相关文档片段
参考答案：问题的标准答案或真实回答

测试集生成与评估的差异

在测试集生成阶段，开发者通常会使用OpenAI等云端模型的嵌入方法来创建问题/上下文/参考答案的三元组。然而，当实际部署本地RAG系统时，系统使用的是完全不同的嵌入方法（如GenAI嵌入），这将导致检索到的上下文与测试集生成阶段获取的上下文存在差异。

评估时的上下文选择原则

技术实践表明，在评估本地RAG系统时，应当使用系统自身检索到的上下文而非测试集生成阶段的上下文。这种选择基于以下技术考量：

评估真实性：使用系统实际检索的上下文能够真实反映系统在生产环境中的表现
端到端测试：这种评估方式涵盖了从检索到生成的全流程性能
指标相关性：RAGAS提供的评估指标（如上下文精确度和召回率）正是设计用于衡量系统自身的检索能力

评估数据集的构建方法

正确的评估数据集构建方法应该是：

问题集和参考答案：从标准测试集或"创建测试集"文档中获取
答案和上下文：由本地RAG系统在实际运行中生成

这种分离式构建方法确保了评估既保持了问题与参考答案的客观性，又能准确反映本地系统的实际性能。

评估指标的技术含义

RAGAS提供的评估指标针对RAG系统的不同组件设计：

检索器指标：包括上下文精确度和上下文召回率，专门评估检索系统的性能
生成器指标：如忠实度（衡量幻觉）和答案相关性，评估LLM生成质量

通过这种分层次的评估，开发者可以精确诊断系统瓶颈所在，无论是检索环节还是生成环节的问题。

技术实践建议

对于正在实施本地RAG系统的开发者，建议：

保持测试问题的稳定性，使用公认的基准数据集
允许系统使用自身的检索机制获取上下文
定期更新评估数据集以反映实际应用场景的变化
对比不同嵌入方法在相同问题集上的表现差异

这种评估方法不仅适用于本地RAG系统，也可推广到其他自定义检索增强系统的性能评估中。

ragas

Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines

项目地址：https://gitcode.com/gh_mirrors/ra/ragas

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理