MNBVC中文语料库：面向NLP研究的超大规模数据基础设施

2026-04-26 11:13:47作者：咎岭娴Homer

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

项目地址：https://gitcode.com/gh_mirrors/mn/MNBVC

MNBVC（Massive Never-ending BT Vast Chinese corpus）是一个超大规模中文语料集，旨在为中文自然语言处理（NLP）研究与应用提供高质量训练数据支撑。该项目对标国际领先语言模型的训练数据规模，通过系统化的数据收集与处理，构建覆盖多元文本类型的中文语料库，填补中文NLP领域大规模数据资源的缺口。

1. 项目定位与核心价值

1.1 数据基础设施建设意义

在大语言模型快速发展的背景下，高质量、大规模的训练数据已成为NLP技术突破的核心驱动力。MNBVC项目通过整合多源中文文本数据，构建标准化语料处理流程，为中文语言模型研发提供基础支撑，助力缩小国内外技术差距。

1.2 数据覆盖范围

MNBVC语料库包含多种文本类型，覆盖主流文化与小众文化场景：

新闻资讯与学术论文
文学作品（小说、散文、诗歌等）
社交平台内容（帖子、评论、聊天记录）
商业信息（商品介绍、用户评价）
娱乐文化内容（歌词、台词、笑话）

图1：MNBVC项目发起初衷文档，强调中文NLP发展的紧迫性与数据建设的重要性

2. 数据规模与技术规范

2.1 数据体量与进度

指标	当前状态	目标值	完成进度
总数据量	60298GB（约60TB）	253TB	23.8%

2.2 数据格式标准

项目采用多格式存储策略，逐步推进数据标准化：

原始数据：txt、json、jsonl
多模态数据：parquet格式
最终目标：统一为jsonl（文本数据）和parquet（多模态数据）格式

2.3 数据处理原则

脱敏处理：自动过滤8位及以上数字串，保护用户隐私
版权合规：仅提供数据来源信息，不包含索引分类
持续更新：建立常态化数据收集与整理机制

3. 语料处理工具链

3.1 中文文本处理工具

charset_mnbvc：中文编码检测工具，提供高效准确的编码识别能力
deduplication_mnbvc：批量去重系统，支持识别并筛选段落重复度高的文件
DataCheck_MNBVC：语料格式统一检查工具，确保数据规范性
DataClean-MNBVC：数据清洗示例工具，提供标准化预处理流程

3.2 多模态数据处理工具

pdf_meta_data_mnbvc：PDF文档元信息抽取工具
Arxiv_mllm_mnbvc：学术论文解析工具，支持Arxiv文档结构化处理
mm_template_mnbvc：文本转parquet格式转换工具，适配多模态训练需求

4. 数据获取与社区参与

4.1 数据下载渠道

P2P同步：通过微力同步工具接收数据包更新（密钥：B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ）
百度网盘：提供2022年12月至今的历史数据包下载

4.2 社区贡献途径

项目设立多个专项工作组，欢迎开发者参与：

OCR转码小组：需计算机视觉与NLP算法背景
问答语料小组：负责问答数据对齐与质量检查
语料增强小组：利用NLP技术提升数据质量
代码语料小组：专注编程相关语料处理

4.3 代码仓库获取

git clone https://gitcode.com/gh_mirrors/mn/MNBVC

5. 应用场景与技术价值

5.1 NLP研究应用

MNBVC语料库支持多种自然语言处理任务：

大语言模型预训练
文本分类与情感分析
机器翻译模型训练
信息抽取与知识图谱构建

5.2 技术特色总结

数据规模优势：60TB现有数据，目标253TB的超大规模语料支撑
工具生态完整：从数据采集、清洗到格式转换的全流程工具链
应用场景广泛：覆盖学术研究与工业应用的多样化需求
社区驱动发展：开放协作模式促进持续迭代优化

MNBVC项目通过系统化的中文语料建设，为NLP研究者和AI开发者提供了高质量的数据基础，助力推动中文自然语言处理技术的发展与应用落地。

MNBVC

项目地址：https://gitcode.com/gh_mirrors/mn/MNBVC

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

446

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

152

255