在Ragas项目中直接传入单页内容字符串生成测试集的方法

2025-05-26 05:00:59作者：齐冠琰

Supercharge Your LLM Application Evaluations 🚀

项目地址：https://gitcode.com/gh_mirrors/ra/ragas

Ragas是一个用于生成测试集的Python库，通常使用DirectoryLoader来加载文档目录。但有时开发者希望直接传入单页内容字符串而非整个文档目录来生成测试集。本文将介绍如何实现这一需求。

核心思路

Ragas提供了InMemoryDocumentStore作为文档存储方案，允许开发者直接将内容字符串添加到文档库中，而不必依赖文件系统路径。这种方法特别适合处理动态生成或临时获取的文本内容。

实现步骤

初始化必要组件：
- 首先需要准备生成器LLM模型（如GPT-3.5-turbo-16k）
- 批评者LLM模型（如GPT-4用于质量评估）
- 嵌入模型（如text-embedding-ada-002）
- 关键词提取器
创建内存文档存储：
- 使用TokenTextSplitter设置文本分块参数
- 初始化InMemoryDocumentStore并配置相关组件
添加单页内容：
- 将需要处理的文本内容封装成Document对象
- 调用add_documents方法添加到文档库
生成测试集：
- 使用配置好的TestsetGenerator实例
- 调用相应方法生成测试数据

技术细节

内存文档存储(InMemoryDocumentStore)是Ragas提供的一种轻量级文档管理方案，相比基于文件的DirectoryLoader具有以下优势：

无需文件I/O操作，处理速度更快
适合处理临时或动态生成的文本内容
便于集成到现有数据处理流程中
减少对外部文件系统的依赖

文本分块器(TokenTextSplitter)负责将大段文本分割成适合模型处理的片段，chunk_size参数控制每个片段的大小，chunk_overlap设置片段间的重叠部分。

实际应用场景

这种方法特别适用于以下情况：

从API获取的实时数据需要立即生成测试集
网页爬取的内容需要快速验证
用户输入的长文本需要即时分析
开发过程中临时生成的示例文本需要测试

性能考量

使用内存存储时需要注意：

大文本内容会占用较多内存
频繁更新内容可能导致性能下降
对于超长文档，适当调整分块参数很重要
在多进程环境下需要考虑数据同步问题

通过这种灵活的方式，开发者可以更自由地将Ragas集成到各种文本处理流程中，而不必受限于文件系统存储方案。

Supercharge Your LLM Application Evaluations 🚀

项目地址：https://gitcode.com/gh_mirrors/ra/ragas

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统