首页
/ 使用Ragas生成合成测试集并评估RAG系统性能指南

使用Ragas生成合成测试集并评估RAG系统性能指南

2025-05-26 16:41:05作者:翟江哲Frasier

Ragas是一个用于评估检索增强生成(RAG)系统性能的开源框架。本文将详细介绍如何利用Ragas生成合成测试数据集,并将其用于RAG系统的评估流程。

Ragas测试集生成原理

Ragas的测试集生成器基于大语言模型(LLM)的能力,能够自动创建多样化的测试问题。生成器支持三种问题演化类型:

  1. 简单问题:直接基于文档内容生成的问题
  2. 推理问题:需要多步推理才能回答的问题
  3. 多上下文问题:需要结合多个文档片段才能回答的问题

通过调整这三种类型的分布比例,可以创建符合特定需求的测试集。

完整工作流程

1. 环境准备

首先需要安装必要的Python包并配置API密钥:

!pip install ragas langchain openai
import os
os.environ["OPENAI_API_KEY"] = "your-openai-key"

2. 文档加载与预处理

使用LangChain的文档加载器加载待评估的文档:

from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader("your-docs-directory")
documents = loader.load()

# 确保文档包含必要的元数据
for doc in documents:
    doc.metadata['filename'] = doc.metadata.get('source', 'unknown')

3. 测试集生成

配置生成器并创建测试集:

from ragas.testset.generator import TestsetGenerator
from ragas.testset.evolutions import simple, reasoning, multi_context
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

# 初始化LLM和嵌入模型
generator_llm = ChatOpenAI(model="gpt-3.5-turbo-16k")
critic_llm = ChatOpenAI(model="gpt-4")
embeddings = OpenAIEmbeddings()

# 创建生成器实例
generator = TestsetGenerator.from_langchain(
    generator_llm,
    critic_llm,
    embeddings
)

# 设置问题类型分布
distributions = {
    simple: 0.5,       # 50%简单问题
    reasoning: 0.25,   # 25%推理问题
    multi_context: 0.25 # 25%多上下文问题
}

# 生成测试集
testset = generator.generate_with_langchain_docs(
    documents, 
    test_size=10, 
    distributions=distributions
)

4. 数据格式转换与验证

将生成的测试集转换为评估所需的格式:

from datasets import Dataset
import pandas as pd

# 转换为Pandas DataFrame
test_df = testset.to_pandas()

# 确保包含必要的列
required_columns = ['question', 'answer', 'contexts', 'ground_truth']
for col in required_columns:
    if col not in test_df.columns:
        test_df[col] = None  # 或根据实际情况填充默认值

# 确保数据类型正确
test_df['answer'] = test_df['answer'].astype(str)
test_df['contexts'] = test_df['contexts'].apply(lambda x: [str(i) for i in x])

# 转换回Dataset格式
eval_dataset = Dataset.from_pandas(test_df)

5. 评估RAG系统

使用Ragas提供的指标进行评估:

from ragas import evaluate
from ragas.metrics import (
    answer_relevancy,
    faithfulness,
    context_recall,
    context_precision,
)

# 执行评估
result = evaluate(
    eval_dataset,
    metrics=[
        context_precision,
        faithfulness,
        answer_relevancy,
        context_recall,
    ],
)

# 查看结果
print(result)

关键指标解析

Ragas提供了多个评估指标,每个指标衡量RAG系统的不同方面:

  1. 答案相关性(Answer Relevancy):评估答案与问题的相关程度
  2. 忠实度(Faithfulness):衡量答案是否忠实于提供的上下文
  3. 上下文召回率(Context Recall):评估系统检索到的上下文是否包含回答问题所需的所有信息
  4. 上下文精确度(Context Precision):衡量检索到的上下文中有多少是真正相关的

实际应用建议

  1. 测试集大小:根据文档复杂度和评估需求,合理设置test_size参数
  2. 问题分布:调整三种问题类型的比例以模拟真实使用场景
  3. 评估频率:建议在RAG系统迭代开发过程中定期进行评估
  4. 结果分析:不仅要关注总体得分,还要分析各指标间的平衡关系

常见问题解决方案

  1. 缺少必要列:确保数据集包含question、answer、contexts和ground_truth列
  2. 数据类型错误:使用astype(str)确保文本列格式正确
  3. 评估失败:检查API密钥和网络连接,确保评估环境配置正确

通过本文介绍的方法,开发者可以系统性地评估RAG系统的性能,为优化提供数据支持。Ragas的自动化测试生成和评估能力大大降低了RAG系统评估的门槛,使团队能够更专注于模型和检索组件的优化工作。

登录后查看全文
热门项目推荐

热门内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
860
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
595
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K