突破中文NLP瓶颈：哈工大讯飞联合实验室BERT-wwm全词掩码技术原理解析

2026-02-04 04:44:35作者：庞眉杨Will

项目概述

中文BERT-wwm（Pre-Training with Whole Word Masking for Chinese BERT）是哈工大讯飞联合实验室（HFL）开发的中文预训练语言模型系列，通过创新的全词掩码技术显著提升了中文自然语言处理任务的性能。该项目位于gh_mirrors/ch/Chinese-BERT-wwm，提供了多种预训练模型及丰富的中文NLP数据集。

核心技术：全词掩码（Whole Word Masking）

传统BERT模型采用WordPiece分词方式，会将完整词语切分成若干子词，在预训练时随机mask这些子词。全词掩码技术改进了这一策略：当一个完整词的部分子词被mask时，同属该词的其他子词也会被一同mask，从而更好地保留词语级语义信息。

说明	样例
原始文本	使用语言模型来预测下一个词的probability。
分词文本	使用语言模型来预测下一个词的 probability 。
原始Mask输入	使用语言 [MASK] 型来 [MASK] 测下一个词的 pro [MASK] ##lity 。
全词Mask输入	使用语言 [MASK] [MASK] 来 [MASK] [MASK] 下一个词的 [MASK] [MASK] [MASK] 。

模型家族与下载

项目提供了多个优化版本的中文BERT模型，适用于不同计算资源和任务需求：

模型简称	语料	参数规模	特点
BERT-wwm	中文维基	110M	基础全词掩码模型
BERT-wwm-ext	维基+扩展数据	110M	更大训练数据，优化学习率
RoBERTa-wwm-ext	维基+扩展数据	110M	集成RoBERTa优化策略
RoBERTa-wwm-ext-large	维基+扩展数据	330M	24层大模型，最佳性能
RBT3	维基+扩展数据	38M	轻量级3层模型
RBTL3	维基+扩展数据	61M	轻量级large 3层模型

模型可通过以下方式获取：

官方仓库克隆：git clone https://gitcode.com/gh_mirrors/ch/Chinese-BERT-wwm
详细下载链接参见中文模型下载

性能评估：多任务基准测试

阅读理解任务

在简体中文阅读理解数据集CMRC 2018上，RoBERTa-wwm-ext-large模型表现最佳，EM值达到74.2，F1值达到90.6。

模型	开发集	测试集	挑战集
BERT	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)
RoBERTa-wwm-ext-large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)

文本分类任务

在THUCNews新闻分类数据集上，各模型表现如下：

模型	开发集准确率	测试集准确率
BERT	97.7 (97.4)	97.8 (97.6)
RoBERTa-wwm-ext	98.3 (97.9)	97.7 (97.5)
RoBERTa-wwm-ext-large	98.3 (97.7)	97.8 (97.6)

命名实体识别任务

在MSRA-NER数据集上的实体识别效果对比：

快速上手

使用Huggingface Transformers加载

from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained("hfl/chinese-roberta-wwm-ext")
model = BertModel.from_pretrained("hfl/chinese-roberta-wwm-ext")

text = "今天天气真好"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

数据集资源

项目包含多个中文NLP任务数据集，位于data/目录下：

使用建议

学习率调整：BERT/wwm模型通常需要较小的初始学习率（2e-5~5e-5），而ERNIE需要较高学习率（5e-5~8e-5）
数据适配：若任务数据与预训练领域差异大，建议在任务数据上进行二次预训练
繁体中文处理：优先选择BERT/wwm系列，ERNIE词表中繁体字符较少
资源权衡：性能优先选择RoBERTa-wwm-ext-large，资源受限可选用RBT3/RBTL3轻量级模型

引用与致谢

如果使用本项目成果，请引用相关论文：

@article{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  doi={10.1109/TASLP.2021.3124365},
}

项目第一作者部分受到谷歌TPU Research Cloud计划资助，更多技术细节参见项目README。

Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT（中文BERT-wwm系列模型）

项目地址：https://gitcode.com/gh_mirrors/ch/Chinese-BERT-wwm

登录后查看全文