解决minimind项目中大语料训练Tokenizer时的内存问题

2025-05-10 17:53:50作者：裴锟轩Denise

在自然语言处理项目中，Tokenizer的训练是一个关键步骤。minimind项目在训练Tokenizer时遇到了内存分配失败的问题，特别是在处理7GB大小的parquet文件时。本文将深入分析问题原因并提供解决方案。

问题背景

当使用HuggingFace的tokenizers库训练BPE(Byte Pair Encoding)模型时，内存消耗会随着语料库大小的增加而显著增长。对于7GB的parquet文件，直接加载到内存中进行训练会导致内存不足错误。

核心问题分析

内存消耗来源：
- 原始语料一次性加载到内存
- BPE算法需要维护词频统计表
- 中间处理结果占用大量内存
现有实现的问题：
- 虽然使用了迭代器模式读取数据，但内存优化不足
- 缺乏批处理机制
- 没有考虑数据预处理的内存占用

解决方案

1. 优化数据加载方式

def _get_training_corpus(self) -> Iterator[str]:
    logger.info(f"Reading training corpus from {self.data_path}")
    try:
        # 使用PyArrow直接流式读取parquet文件
        import pyarrow.parquet as pq
        table = pq.ParquetFile(self.data_path)
        
        # 分批读取数据
        batch_size = 10000  # 可根据内存调整
        for batch in table.iter_batches(batch_size=batch_size):
            df = batch.to_pandas()
            for text in df['text']:
                if pd.notna(text):
                    yield str(text)
                else:
                    logger.warning("遇到空文本，已跳过")
    except Exception as e:
        logger.error(f"读取parquet文件失败: {e}")
        raise

2. 调整训练参数

trainer = trainers.BpeTrainer(
    vocab_size=self.vocab_size,
    special_tokens=self.special_tokens,
    show_progress=True,
    initial_alphabet=pre_tokenizers.ByteLevel.alphabet(),
    continuing_subword_prefix="",  # 减少内存占用
    end_of_word_suffix="",         # 减少内存占用
    limit_alphabet=1000,          # 限制初始字母表大小
)

3. 实现内存监控

import psutil
import os

def memory_check():
    process = psutil.Process(os.getpid())
    mem_info = process.memory_info()
    return mem_info.rss / (1024 * 1024)  # MB

# 在训练循环中添加内存检查
logger.info(f"当前内存使用: {memory_check()}MB")