Quivr项目中CRAG数据集子集划分的技术实现

2025-05-03 12:04:14作者：盛欣凯Ernestine

背景介绍

在自然语言处理和信息检索领域，大规模数据集的合理划分对于模型训练和评估至关重要。Quivr项目中的CRAG数据集是一个包含大量问答对和HTML文档的综合性数据集，主要用于检索和生成任务的评估。

数据集划分需求

原始CRAG数据集规模较大，直接使用存在以下挑战：

计算资源消耗大
实验周期长
难以进行快速迭代

为解决这些问题，技术团队决定将数据集划分为更小的子集，同时保持原始数据集的统计特性。

技术实现方案

分层抽样方法

团队采用了分层抽样(stratified sampling)技术来创建子集，这种方法能够：

保持原始数据集的分布特性
确保每个子集具有代表性
避免抽样偏差

子集规格

每个子集包含：

135个问题
每个问题对应5个HTML文档
总计675个文档

实现细节

问题划分：首先将原始问题集均匀划分为20个子集
文档关联：保持问题与对应文档的关联关系
格式保留：所有文档保持原始HTML格式不变
质量控制：验证每个子集的统计特性与原始数据集一致

技术优势

这种划分方式带来了多项优势：

灵活性：研究人员可以选择使用完整数据集或特定子集
效率：小规模实验可以快速完成
可重复性：相同子集上的实验结果可直接比较
资源友好：降低了对计算资源的要求

应用场景

划分后的子集特别适合：

快速原型开发
超参数调优
算法对比测试
教学演示环境

总结

Quivr项目通过科学的数据集划分方法，为研究人员提供了更加灵活高效的实验环境。这种技术实现不仅解决了大规模数据集的使用难题，也为后续的检索和生成任务评估奠定了坚实基础。

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架