首页
/ 使用Ragas生成合成测试集并评估RAG系统性能指南

使用Ragas生成合成测试集并评估RAG系统性能指南

2025-05-26 01:22:19作者:翟江哲Frasier

Ragas是一个用于评估检索增强生成(RAG)系统性能的开源框架。本文将详细介绍如何利用Ragas生成合成测试数据集,并将其用于RAG系统的评估流程。

Ragas测试集生成原理

Ragas的测试集生成器基于大语言模型(LLM)的能力,能够自动创建多样化的测试问题。生成器支持三种问题演化类型:

  1. 简单问题:直接基于文档内容生成的问题
  2. 推理问题:需要多步推理才能回答的问题
  3. 多上下文问题:需要结合多个文档片段才能回答的问题

通过调整这三种类型的分布比例,可以创建符合特定需求的测试集。

完整工作流程

1. 环境准备

首先需要安装必要的Python包并配置API密钥:

!pip install ragas langchain openai
import os
os.environ["OPENAI_API_KEY"] = "your-openai-key"

2. 文档加载与预处理

使用LangChain的文档加载器加载待评估的文档:

from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader("your-docs-directory")
documents = loader.load()

# 确保文档包含必要的元数据
for doc in documents:
    doc.metadata['filename'] = doc.metadata.get('source', 'unknown')

3. 测试集生成

配置生成器并创建测试集:

from ragas.testset.generator import TestsetGenerator
from ragas.testset.evolutions import simple, reasoning, multi_context
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

# 初始化LLM和嵌入模型
generator_llm = ChatOpenAI(model="gpt-3.5-turbo-16k")
critic_llm = ChatOpenAI(model="gpt-4")
embeddings = OpenAIEmbeddings()

# 创建生成器实例
generator = TestsetGenerator.from_langchain(
    generator_llm,
    critic_llm,
    embeddings
)

# 设置问题类型分布
distributions = {
    simple: 0.5,       # 50%简单问题
    reasoning: 0.25,   # 25%推理问题
    multi_context: 0.25 # 25%多上下文问题
}

# 生成测试集
testset = generator.generate_with_langchain_docs(
    documents, 
    test_size=10, 
    distributions=distributions
)

4. 数据格式转换与验证

将生成的测试集转换为评估所需的格式:

from datasets import Dataset
import pandas as pd

# 转换为Pandas DataFrame
test_df = testset.to_pandas()

# 确保包含必要的列
required_columns = ['question', 'answer', 'contexts', 'ground_truth']
for col in required_columns:
    if col not in test_df.columns:
        test_df[col] = None  # 或根据实际情况填充默认值

# 确保数据类型正确
test_df['answer'] = test_df['answer'].astype(str)
test_df['contexts'] = test_df['contexts'].apply(lambda x: [str(i) for i in x])

# 转换回Dataset格式
eval_dataset = Dataset.from_pandas(test_df)

5. 评估RAG系统

使用Ragas提供的指标进行评估:

from ragas import evaluate
from ragas.metrics import (
    answer_relevancy,
    faithfulness,
    context_recall,
    context_precision,
)

# 执行评估
result = evaluate(
    eval_dataset,
    metrics=[
        context_precision,
        faithfulness,
        answer_relevancy,
        context_recall,
    ],
)

# 查看结果
print(result)

关键指标解析

Ragas提供了多个评估指标,每个指标衡量RAG系统的不同方面:

  1. 答案相关性(Answer Relevancy):评估答案与问题的相关程度
  2. 忠实度(Faithfulness):衡量答案是否忠实于提供的上下文
  3. 上下文召回率(Context Recall):评估系统检索到的上下文是否包含回答问题所需的所有信息
  4. 上下文精确度(Context Precision):衡量检索到的上下文中有多少是真正相关的

实际应用建议

  1. 测试集大小:根据文档复杂度和评估需求,合理设置test_size参数
  2. 问题分布:调整三种问题类型的比例以模拟真实使用场景
  3. 评估频率:建议在RAG系统迭代开发过程中定期进行评估
  4. 结果分析:不仅要关注总体得分,还要分析各指标间的平衡关系

常见问题解决方案

  1. 缺少必要列:确保数据集包含question、answer、contexts和ground_truth列
  2. 数据类型错误:使用astype(str)确保文本列格式正确
  3. 评估失败:检查API密钥和网络连接,确保评估环境配置正确

通过本文介绍的方法,开发者可以系统性地评估RAG系统的性能,为优化提供数据支持。Ragas的自动化测试生成和评估能力大大降低了RAG系统评估的门槛,使团队能够更专注于模型和检索组件的优化工作。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
144
1.92 K
kernelkernel
deepin linux kernel
C
22
6
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
192
274
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
930
553
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
422
392
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
145
189
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Jupyter Notebook
75
65
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
344
1.3 K
easy-eseasy-es
Elasticsearch 国内Top1 elasticsearch搜索引擎框架es ORM框架,索引全自动智能托管,如丝般顺滑,与Mybatis-plus一致的API,屏蔽语言差异,开发者只需要会MySQL语法即可完成对Es的相关操作,零额外学习成本.底层采用RestHighLevelClient,兼具低码,易用,易拓展等特性,支持es独有的高亮,权重,分词,Geo,嵌套,父子类型等功能...
Java
36
8