首页
/ 【亲测免费】 中文文本分类语料(复旦)(训练集+测试集)

【亲测免费】 中文文本分类语料(复旦)(训练集+测试集)

2026-02-01 05:02:45作者:裘晴惠Vivianne

简介

本资源库提供了复旦大学李荣陆教授提供的中文文本分类语料,包含训练集和测试集。该语料库适用于自然语言处理领域的文本分类研究和应用,对于开发文本分类模型具有重要的参考价值。

语料描述

  • 训练集(train_corpus): 包含9804篇文档,分为20个相同类别。
  • 测试集(test_corpus): 包含9833篇文档,分为20个相同类别。

训练集和测试集基本按照1:1的比例划分,确保了模型训练和评估的均衡性。

使用说明

在使用本语料库时,请尽量注明来源:复旦大学计算机信息与技术系国际数据库中心自然语言处理小组。

由于文件体积较大,下载时请耐心等待。

版权声明

本语料库版权属于复旦大学计算机信息与技术系国际数据库中心自然语言处理小组,仅供学术研究使用,不得用于商业用途。

文件结构

.
├── test_corpus
│   ├── category1
│   ├── category2
│   ...
│   └── category20
└── train_corpus
    ├── category1
    ├── category2
    ...
    └── category20

每个类别文件夹内包含对应类别的文档文件。

登录后查看全文
热门项目推荐
相关项目推荐