Structured-Self-Attention项目数据加载器实现解析

2025-07-06 02:44:02作者：鲍丁臣Ursa

概述

本文将深入分析Structured-Self-Attention项目中data_loader.py模块的实现细节，该模块主要负责文本分类任务的数据加载和预处理工作。作为深度学习项目的重要组成部分，数据加载器的设计直接影响模型的训练效率和最终性能。

核心功能

该数据加载器主要提供以下功能：

支持两种文本分类数据集加载：IMDB（二分类）和Reuters（多分类）
自动完成文本序列的token化和padding处理
构建PyTorch可用的DataLoader对象
提供词汇表映射功能

实现细节解析

1. 数据集选择与加载

数据加载器通过type参数区分不同的数据集类型：

if not bool(type):
    # 加载IMDB数据集（二分类）
    train_set,test_set = imdb.load_data(num_words=NUM_WORDS, index_from=INDEX_FROM)
else:
    # 加载Reuters数据集（多分类）
    train_set,test_set = reuters.load_data(path="reuters.npz",num_words=vocab_size,skip_top=0,index_from=INDEX_FROM)

IMDB数据集用于情感分析（正面/负面二分类），而Reuters数据集用于新闻主题分类（多分类任务）。

2. 词汇表处理

数据加载器构建了完整的词汇表映射系统：

word_to_id = imdb.get_word_index()
word_to_id = {k:(v+INDEX_FROM) for k,v in word_to_id.items()}
word_to_id["<PAD>"] = 0
word_to_id["<START>"] = 1
word_to_id["<UNK>"] = 2

这里添加了三个特殊token：

<PAD>：填充token，用于统一序列长度
<START>：序列起始token
<UNK>：未知词token

3. 序列填充处理

使用Keras的pad_sequences函数统一序列长度：

x_train_pad = pad_sequences(x_train,maxlen=max_len)
x_test_pad = pad_sequences(x_test,maxlen=max_len)

max_len参数控制序列的最大长度，超过此长度的序列会被截断，不足的会用<PAD>填充。

4. PyTorch DataLoader构建

将处理后的数据转换为PyTorch的Dataset和DataLoader：

train_data = data_utils.TensorDataset(torch.from_numpy(x_train_pad).type(torch.LongTensor),
                                    torch.from_numpy(y_train).type(torch.DoubleTensor))
train_loader = data_utils.DataLoader(train_data,batch_size=batch_size,drop_last=True)

这里需要注意：