Dolma v1.2.0 版本发布：增强文本处理与数据安全能力

2025-07-04 15:49:46作者：冯梦姬Eddie

Data and tools for generating and inspecting OLMo pre-training data.

项目地址：https://gitcode.com/gh_mirrors/do/dolma

Dolma 是一个由 AllenAI 开发的开源文本数据处理工具链，专注于为大规模语言模型训练提供高质量的数据预处理解决方案。该项目通过模块化设计，支持从原始数据清洗、标记化到最终数据集构建的全流程处理。最新发布的 v1.2.0 版本带来了一系列功能增强和稳定性改进，特别在文本标记化安全性和特殊格式处理方面有显著提升。

核心功能增强

安全标记化处理机制

新版本引入了文档处理失败的安全机制，当标记化过程中遇到问题文档时，系统会跳过该文档而非中断整个流程。这种容错设计特别适合处理来自不同来源、质量参差不齐的网络文本数据。实现原理是在标记化阶段捕获潜在异常，记录错误信息后继续处理后续文档，确保大规模数据处理任务的稳定性。

代码与散文混合内容识别

新增的代码-散文混合内容标记器(code-prose-composition tagger)能够智能识别文档中编程代码与自然语言文本的混合内容。该功能采用基于规则的启发式方法，结合语法分析和统计特征，有效区分技术文档、教程类内容与纯文学文本，为后续的内容筛选和质量评估提供重要特征。

WARC 资源记录全面支持

针对网络存档数据，v1.2.0 扩展了对 WARC(Web ARChive)格式的深度支持，包括处理各种资源记录类型。WARC 是保存网页内容的国际标准格式，新版本能够正确解析其中的HTTP响应、元数据、转换记录等多种记录类型，提取有效文本内容同时保留原始结构信息。

数据处理流程优化

自定义字段标记化

标记化处理器现在支持对用户指定字段而非固定字段进行标记化处理，大大增强了配置灵活性。用户可以通过配置文件选择需要处理的特定字段，避免对不必要字段进行冗余计算。同时，新增了BOS(开始符)和EOS(结束符)标记选项，使生成的标记更符合特定语言模型的训练需求。

本地缓存管理改进

优化了S3路径处理逻辑，现在能正确使用原始S3路径来管理本地缓存文件。这一改进解决了之前版本中因路径转换导致的缓存清理不彻底问题，显著降低了长时间运行任务时的磁盘空间占用风险。

稳定性与兼容性提升

新版本包含多项稳定性增强：空标记键的自动跳过处理避免了因元数据不完整导致的流程中断；更新了内部依赖库版本至4.4.1，修复了已知的兼容性问题；完善了错误处理机制，使系统在边缘情况下表现更加健壮。

这些改进使Dolma在处理多样化、大规模文本数据时更加可靠，为构建高质量语言模型训练数据集提供了更强大的工具支持。项目团队通过持续优化核心算法和扩展文件格式支持，进一步巩固了Dolma作为专业级文本预处理解决方案的地位。

Data and tools for generating and inspecting OLMo pre-training data.

项目地址：https://gitcode.com/gh_mirrors/do/dolma

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter