首页
/ 【亲测免费】 Dolma:开源大规模数据集处理工具

【亲测免费】 Dolma:开源大规模数据集处理工具

2026-01-29 12:25:19作者:申梦珏Efrain

1. 项目基础介绍

Dolma 是由 AllenAI 开发的一个开源项目,旨在为机器学习模型,特别是大规模语言模型的预训练提供数据和工具。项目使用 Python 和 Rust 两种编程语言编写,其中 Python 代码占比约为 80.6%,Rust 代码占比约为 15.7%。

2. 项目核心功能

Dolma 包含以下核心功能:

  • 高性能处理:利用内置的并行处理能力,可以同时处理数亿文档。
  • 便携性:能够在单机、集群或云环境中运行。
  • 内置标签器:提供了一系列常用的标签器,如 Gopher、C4 和 OpenWebText,用于数据集的筛选和整理。
  • 快速去重:使用 Rust 语言实现的 Bloom Filter 进行文档快速去重。
  • 扩展性和云支持:支持自定义标签器,以及 AWS S3 兼容的存储位置。

3. 项目最近更新的功能

最近更新的功能包括:

  • 优化了文档处理流程,提高了处理速度和效率。
  • 新增了一些自定义标签器,以满足不同用户的需求。
  • 对文档去重功能进行了改进,提高了去重的准确性和速度。
  • 优化了项目文档,使得用户更容易理解和上手使用 Dolma 工具包。
登录后查看全文
热门项目推荐
相关项目推荐