Datatrove项目Minhash去重集群阶段性能优化分析

2025-07-02 11:36:19作者：柯茵沙

在Datatrove项目的Minhash去重流程中，用户反馈集群阶段（MinhashDedupCluster）存在显著的性能瓶颈。本文将深入分析该问题的技术背景、现有解决方案以及优化方向。

性能瓶颈分析

Minhash去重流程通常包含两个主要阶段：

集群阶段的核心任务是构建重复文档的并集，其时间复杂度与数据规模呈非线性增长关系。当前Python实现虽然功能完整，但受限于GIL和算法实现，难以充分利用多核资源。

项目维护者提供了两种实现方案：

在索引文档处理方面，Python实现通过优先队列确保索引文档始终作为"父节点"保留。而Rust实现由于使用无符号整数处理文档ID，当遇到索引文档（ID为-1）时会产生溢出，导致生成异常的空结果文件（如4294967295.*文件）。

对于不同场景的用户可以考虑以下方案：

未来可能的改进方向包括为Rust实现添加索引文档支持，或开发基于图分割的分布式集群算法，在保持确定性的同时提高并行度。

Datatrove的Minhash去重在不同实现间存在显著的性能-功能权衡。用户应根据具体需求选择合适的实现方案，大型数据处理场景下可考虑分层处理策略以平衡效率与精度要求。

登录后查看全文