【免费下载】 Enron Spam Dataset：电子邮件分类的黄金数据集

2026-01-20 01:10:21作者：段琳惟

项目介绍

Enron Spam Dataset 是由V. Metsis、I. Androutsopoulos和G. Paliouras收集并描述的一个优秀资源，详细内容可以在他们的论文"Spam Filtering with Naive Bayes - Which Naive Bayes?"中找到。该数据集包含了17,171封垃圾邮件和16,545封非垃圾邮件（即“ham”），总计33,716封电子邮件。原始数据集和文档可以在这里找到。

然而，原始数据集的记录方式是将每封邮件单独存储在一个txt文件中，并分布在多个目录下。这种方式对于初学者来说，读取数据可能会有些繁琐。为了方便用户使用，项目提供了一个简单的csv文件下载，用户可以直接下载并使用。

项目技术分析

该项目的主要技术点在于数据的处理和格式转换。原始数据集是以分散的txt文件形式存储的，而项目通过Python脚本（build_data_file.py）将这些分散的数据整合到一个压缩的csv文件中。处理过程包括：

数据下载：从原始网站下载数据。
数据解压：解压下载的数据文件。
数据处理：将分散的txt文件内容整合到一个csv文件中。
数据保存：将处理后的数据保存为压缩的csv文件。

处理后的数据集包含以下列：

Subject：邮件的主题行。
Message：邮件的内容。如果邮件只有主题行而没有正文，则该列为空字符串。对于转发或回复的邮件，该列还包含原始邮件的内容，包括主题行、“from:”、“to:”等信息。
Spam/Ham：标记邮件是否为垃圾邮件，值为“spam”或“ham”。
Date：邮件的接收日期，格式为YYYY-MM-DD。

项目及技术应用场景

Enron Spam Dataset 是一个非常适合用于电子邮件分类、垃圾邮件过滤和自然语言处理（NLP）研究的资源。以下是一些具体的应用场景：

垃圾邮件过滤：通过训练机器学习模型，可以实现高效的垃圾邮件过滤系统。
文本分类：可以用于研究不同文本分类算法（如朴素贝叶斯、支持向量机等）在垃圾邮件分类中的表现。
自然语言处理：可以用于研究邮件内容的特征提取、情感分析等NLP任务。
数据预处理：对于初学者来说，该项目提供了一个很好的数据预处理示例，帮助理解如何从分散的数据源中提取和整合数据。

项目特点

数据丰富：包含33,716封电子邮件，其中17,171封为垃圾邮件，16,545封为非垃圾邮件，数据量充足，适合进行大规模的机器学习实验。
格式友好：原始数据集的分散存储方式对初学者不友好，而该项目提供了一个整合后的csv文件，方便用户直接使用。
处理简单：数据处理过程简单明了，用户可以通过Python脚本轻松理解数据整合的步骤。
应用广泛：适用于多种机器学习和自然语言处理任务，尤其是垃圾邮件过滤和文本分类。

总之，Enron Spam Dataset 是一个非常值得使用的开源数据集，无论你是初学者还是资深研究者，都能从中受益。快来下载并开始你的数据分析之旅吧！

enron_spam_data

The Enron-Spam dataset preprocessed in a single, clean csv file.

项目地址：https://gitcode.com/gh_mirrors/en/enron_spam_data

登录后查看全文

【免费下载】 Enron Spam Dataset：电子邮件分类的黄金数据集

项目介绍

项目技术分析

项目及技术应用场景

项目特点

项目优选