推荐开源项目：ELI5——深度问答数据集与工具包

2024-05-21 15:17:38作者：翟江哲Frasier

项目图片

该项目许可证：BSD

项目网站博客文章数据探索平台

更新：

ELI5已成为KILT基准的一部分，并提供了开发集和测试集的固定知识库快照注释。
现在可在Hugging Face的nlp库中找到ELI5，还有新的提取式和生成式方法示例。
ELI5被纳入DodecaDialogue对话任务基准。

1、项目介绍

ELI5是一个专注于长形式问答的数据集，源自网络论坛上的"解释就像我是个五岁孩子"（Explain Like I'm Five）社区，配以从公开网络抓取的相关文档作为支持材料。该项目不仅提供了数据，还包含了创建数据集的全套脚本和序列模型的训练、评估工具，旨在推动深度学习在复杂问答领域的进步。

2、项目技术分析

数据创建过程分为三步：

下载并过滤论坛数据，可以在单台机器上完成。
使用计算集群下载并分词公开网络页面，大约需要48小时。
应用TF-IDF启发式算法选择相关段落，构建最终约1000字的支持文档，并按比例分割为训练、验证和测试集。

此外，项目提供了一套基于Fairseq-py的序列到序列模型训练和生成框架，支持预处理、BPE编码应用以及模型的训练和评估。

3、项目及技术应用场景

研究：对于自然语言处理（NLP）、尤其是深度学习在问答系统中的应用，ELI5提供了高质量的资源。
教育：帮助学生和教师了解如何从原始文本中提取信息，以回答复杂问题。
开发：可以用于构建更强大的AI助手，如聊天机器人，能够提供详尽且深入的答案。
企业：可用于提高客户服务或内部知识检索系统的智能水平。

4、项目特点

全面性：涵盖超过七年的论坛问答数据，配合公开网络的广泛支持文档，确保了数据的多样性。
开放源代码：所有工具和数据处理步骤都公开透明，便于学术界和业界复用。
持续更新：定期加入新功能，如KILT基准支持和Hugging Face集成。
可扩展性：适用于大规模数据处理，易于适应不同的计算环境。

如果你正在寻找一个挑战性的数据集来推动你的AI系统，或者想要深入了解长篇幅问答的处理技术，ELI5无疑是一个值得尝试的项目。现在就开始参与吧，让我们一起推动自然语言理解的边界！

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

昇腾LLM分布式训练框架