使用Ragas生成合成测试集并评估RAG系统性能指南

2025-05-26 22:22:36作者：翟江哲Frasier

Ragas是一个用于评估检索增强生成(RAG)系统性能的开源框架。本文将详细介绍如何利用Ragas生成合成测试数据集，并将其用于RAG系统的评估流程。

Ragas测试集生成原理

Ragas的测试集生成器基于大语言模型(LLM)的能力，能够自动创建多样化的测试问题。生成器支持三种问题演化类型：

简单问题：直接基于文档内容生成的问题
推理问题：需要多步推理才能回答的问题
多上下文问题：需要结合多个文档片段才能回答的问题

通过调整这三种类型的分布比例，可以创建符合特定需求的测试集。

完整工作流程

1. 环境准备

首先需要安装必要的Python包并配置API密钥：

!pip install ragas langchain openai
import os
os.environ["OPENAI_API_KEY"] = "your-openai-key"

2. 文档加载与预处理

使用LangChain的文档加载器加载待评估的文档：

from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader("your-docs-directory")
documents = loader.load()

# 确保文档包含必要的元数据
for doc in documents:
    doc.metadata['filename'] = doc.metadata.get('source', 'unknown')

3. 测试集生成

配置生成器并创建测试集：

from ragas.testset.generator import TestsetGenerator
from ragas.testset.evolutions import simple, reasoning, multi_context
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

# 初始化LLM和嵌入模型
generator_llm = ChatOpenAI(model="gpt-3.5-turbo-16k")
critic_llm = ChatOpenAI(model="gpt-4")
embeddings = OpenAIEmbeddings()

# 创建生成器实例
generator = TestsetGenerator.from_langchain(
    generator_llm,
    critic_llm,
    embeddings
)

# 设置问题类型分布
distributions = {
    simple: 0.5,       # 50%简单问题
    reasoning: 0.25,   # 25%推理问题
    multi_context: 0.25 # 25%多上下文问题
}

# 生成测试集
testset = generator.generate_with_langchain_docs(
    documents, 
    test_size=10, 
    distributions=distributions
)

4. 数据格式转换与验证

将生成的测试集转换为评估所需的格式：

from datasets import Dataset
import pandas as pd

# 转换为Pandas DataFrame
test_df = testset.to_pandas()

# 确保包含必要的列
required_columns = ['question', 'answer', 'contexts', 'ground_truth']
for col in required_columns:
    if col not in test_df.columns:
        test_df[col] = None  # 或根据实际情况填充默认值

# 确保数据类型正确
test_df['answer'] = test_df['answer'].astype(str)
test_df['contexts'] = test_df['contexts'].apply(lambda x: [str(i) for i in x])

# 转换回Dataset格式
eval_dataset = Dataset.from_pandas(test_df)

5. 评估RAG系统

使用Ragas提供的指标进行评估：

from ragas import evaluate
from ragas.metrics import (
    answer_relevancy,
    faithfulness,
    context_recall,
    context_precision,
)

# 执行评估
result = evaluate(
    eval_dataset,
    metrics=[
        context_precision,
        faithfulness,
        answer_relevancy,
        context_recall,
    ],
)

# 查看结果
print(result)

关键指标解析

Ragas提供了多个评估指标，每个指标衡量RAG系统的不同方面：

答案相关性(Answer Relevancy)：评估答案与问题的相关程度
忠实度(Faithfulness)：衡量答案是否忠实于提供的上下文
上下文召回率(Context Recall)：评估系统检索到的上下文是否包含回答问题所需的所有信息
上下文精确度(Context Precision)：衡量检索到的上下文中有多少是真正相关的

实际应用建议

测试集大小：根据文档复杂度和评估需求，合理设置test_size参数
问题分布：调整三种问题类型的比例以模拟真实使用场景
评估频率：建议在RAG系统迭代开发过程中定期进行评估
结果分析：不仅要关注总体得分，还要分析各指标间的平衡关系

常见问题解决方案

缺少必要列：确保数据集包含question、answer、contexts和ground_truth列
数据类型错误：使用astype(str)确保文本列格式正确
评估失败：检查API密钥和网络连接，确保评估环境配置正确

通过本文介绍的方法，开发者可以系统性地评估RAG系统的性能，为优化提供数据支持。Ragas的自动化测试生成和评估能力大大降低了RAG系统评估的门槛，使团队能够更专注于模型和检索组件的优化工作。

ragas

Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines

项目地址：https://gitcode.com/gh_mirrors/ra/ragas

登录后查看全文

使用Ragas生成合成测试集并评估RAG系统性能指南

Ragas测试集生成原理

完整工作流程

1. 环境准备

2. 文档加载与预处理

3. 测试集生成

4. 数据格式转换与验证

5. 评估RAG系统

关键指标解析

实际应用建议

常见问题解决方案

热门内容推荐

最新内容推荐

项目优选

使用Ragas生成合成测试集并评估RAG系统性能指南

Ragas测试集生成原理

完整工作流程

1. 环境准备

2. 文档加载与预处理

3. 测试集生成

4. 数据格式转换与验证

5. 评估RAG系统

关键指标解析

实际应用建议

常见问题解决方案

相关内容推荐

热门内容推荐

最新内容推荐

项目优选