D2L项目教程：情感分析与数据集处理技术详解

2025-06-04 21:04:24作者：虞亚竹Luna

引言

情感分析作为自然语言处理(NLP)的重要应用领域，在当今数据驱动的商业决策中扮演着关键角色。本文将基于D2L项目中的技术实现，深入讲解情感分析任务的数据处理全流程，帮助读者掌握从原始文本到模型可处理格式的完整转换方法。

情感分析概述

情感分析（Sentiment Analysis）是指通过计算技术识别和提取文本中的主观信息，主要包括：

极性分析：判断文本表达的情感是正面、负面还是中性
情感强度分析：量化情感的强烈程度
情感对象分析：识别情感针对的具体实体

在实际应用中，情感分析被广泛用于：

产品评论分析
社交媒体舆情监控
市场调研与品牌管理
金融市场的情绪指标构建

数据集介绍

D2L项目中使用的斯坦福大型电影评论数据集(IMDb)包含以下特点：

数据规模：25,000条电影评论
平衡分布：正负评价各占50%
结构清晰：明确的训练集和测试集划分
原始文本：保留真实的用户表达方式

数据处理全流程

1. 数据加载与读取

def read_imdb(data_dir, is_train):
    """读取IMDb评论数据集文本序列和标签"""
    data, labels = [], []
    for label in ('pos', 'neg'):
        folder_name = os.path.join(data_dir, 'train' if is_train else 'test',
                                   label)
        for file in os.listdir(folder_name):
            with open(os.path.join(folder_name, file), 'rb') as f:
                review = f.read().decode('utf-8').replace('\n', '')
                data.append(review)
                labels.append(1 if label == 'pos' else 0)
    return data, labels

关键点：

递归读取指定目录下的所有文本文件
自动根据文件夹名(pos/neg)生成标签
处理文本编码和换行符问题

2. 文本预处理技术

2.1 分词处理

train_tokens = d2l.tokenize(train_data[0], token='word')

分词是将连续文本转换为离散符号(单词/子词)的过程，需要考虑：

语言特性(英语空格分词 vs 中文需要专门分词工具)
特殊符号处理
大小写统一

2.2 构建词汇表

vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=['<pad>'])

词汇表构建策略：

设置最小词频阈值(如5)过滤低频词
保留特殊标记(如填充标记)
考虑词表大小对模型性能的影响

2.3 序列长度标准化

num_steps = 500  # 序列长度
train_features = d2l.tensor([d2l.truncate_pad(
    vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])

处理文本长度不一的两种方法：

截断(Truncate)：超过指定长度的部分被截去
填充(Padding)：不足长度的用特殊标记填充

3. 数据迭代器构建

train_iter = d2l.load_array((train_features, train_data[1]), 64)

数据迭代器的优势：

支持小批量(mini-batch)处理
自动打乱数据顺序
内存高效加载

技术要点分析

词表构建的权衡：
- 大词表：保留更多语义信息但增加模型复杂度
- 小词表：提高泛化能力但可能丢失细节
序列长度选择：
- 过长：浪费计算资源，引入过多填充
- 过短：丢失重要信息
- 应基于长度分布直方图合理选择
处理不平衡数据：
- 过采样少数类
- 欠采样多数类
- 类别权重调整

完整实现示例

def load_data_imdb(batch_size, num_steps=500):
    """返回IMDb评论数据集的数据迭代器和词表"""
    data_dir = d2l.download_extract('aclImdb', 'aclImdb')
    train_data = read_imdb(data_dir, True)
    test_data = read_imdb(data_dir, False)
    train_tokens = d2l.tokenize(train_data[0], token='word')
    test_tokens = d2l.tokenize(test_data[0], token='word')
    vocab = d2l.Vocab(train_tokens, min_freq=5)
    train_features = torch.tensor([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
    test_features = torch.tensor([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in test_tokens])
    train_iter = d2l.load_array((train_features, torch.tensor(train_data[1])),
                                batch_size)
    test_iter = d2l.load_array((test_features, torch.tensor(test_data[1])),
                               batch_size, is_train=False)
    return train_iter, test_iter, vocab