【亲测免费】中文文本分类语料（复旦）（训练集+测试集）

2026-02-01 05:02:45作者：裘晴惠Vivianne

该项目提供了由复旦大学李荣陆教授提供的中文文本分类语料库，包含训练集和测试集，分别有9804篇和9833篇文档，均分为20个类别。语料库适用于自然语言处理领域的文本分类研究，为开发文本分类模型提供了重要参考。训练集和测试集按1:1比例划分，确保模型训练和评估的均衡性。使用本语料库时，请注明出处，并仅用于学术研究，不得用于商业用途。文件结构清晰，每个类别文件夹内包含相应文档，便于研究者快速上手。

项目地址：https://gitcode.com/Premium-Resources/b281d

简介

本资源库提供了复旦大学李荣陆教授提供的中文文本分类语料，包含训练集和测试集。该语料库适用于自然语言处理领域的文本分类研究和应用，对于开发文本分类模型具有重要的参考价值。

语料描述

训练集（train_corpus）: 包含9804篇文档，分为20个相同类别。
测试集（test_corpus）: 包含9833篇文档，分为20个相同类别。

训练集和测试集基本按照1:1的比例划分，确保了模型训练和评估的均衡性。

使用说明

在使用本语料库时，请尽量注明来源：复旦大学计算机信息与技术系国际数据库中心自然语言处理小组。

由于文件体积较大，下载时请耐心等待。

版权声明

本语料库版权属于复旦大学计算机信息与技术系国际数据库中心自然语言处理小组，仅供学术研究使用，不得用于商业用途。

文件结构

.
├── test_corpus
│   ├── category1
│   ├── category2
│   ...
│   └── category20
└── train_corpus
    ├── category1
    ├── category2
    ...
    └── category20

每个类别文件夹内包含对应类别的文档文件。

中文文本分类语料复旦训练集测试集

项目地址：https://gitcode.com/Premium-Resources/b281d

登录后查看全文

【亲测免费】中文文本分类语料（复旦）（训练集+测试集）

简介

语料描述

使用说明

版权声明

文件结构

最新内容推荐

项目优选

【亲测免费】 中文文本分类语料（复旦）（训练集+测试集）

简介

语料描述

使用说明

版权声明

文件结构

相关内容推荐

最新内容推荐

项目优选

【亲测免费】中文文本分类语料（复旦）（训练集+测试集）