首页
/ 突破中文NLP瓶颈:哈工大讯飞联合实验室BERT-wwm全词掩码技术原理解析

突破中文NLP瓶颈:哈工大讯飞联合实验室BERT-wwm全词掩码技术原理解析

2026-02-04 04:44:35作者:庞眉杨Will

项目概述

中文BERT-wwm(Pre-Training with Whole Word Masking for Chinese BERT)是哈工大讯飞联合实验室(HFL)开发的中文预训练语言模型系列,通过创新的全词掩码技术显著提升了中文自然语言处理任务的性能。该项目位于gh_mirrors/ch/Chinese-BERT-wwm,提供了多种预训练模型及丰富的中文NLP数据集。

项目banner

核心技术:全词掩码(Whole Word Masking)

传统BERT模型采用WordPiece分词方式,会将完整词语切分成若干子词,在预训练时随机mask这些子词。全词掩码技术改进了这一策略:当一个完整词的部分子词被mask时,同属该词的其他子词也会被一同mask,从而更好地保留词语级语义信息。

说明 样例
原始文本 使用语言模型来预测下一个词的probability。
分词文本 使用 语言 模型 来 预测 下 一个 词 的 probability 。
原始Mask输入 使 用 语 言 [MASK] 型 来 [MASK] 测 下 一 个 词 的 pro [MASK] ##lity 。
全词Mask输入 使 用 语 言 [MASK] [MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK] 。

模型家族与下载

项目提供了多个优化版本的中文BERT模型,适用于不同计算资源和任务需求:

模型简称 语料 参数规模 特点
BERT-wwm 中文维基 110M 基础全词掩码模型
BERT-wwm-ext 维基+扩展数据 110M 更大训练数据,优化学习率
RoBERTa-wwm-ext 维基+扩展数据 110M 集成RoBERTa优化策略
RoBERTa-wwm-ext-large 维基+扩展数据 330M 24层大模型,最佳性能
RBT3 维基+扩展数据 38M 轻量级3层模型
RBTL3 维基+扩展数据 61M 轻量级large 3层模型

模型可通过以下方式获取:

  • 官方仓库克隆:git clone https://gitcode.com/gh_mirrors/ch/Chinese-BERT-wwm
  • 详细下载链接参见中文模型下载

性能评估:多任务基准测试

阅读理解任务

在简体中文阅读理解数据集CMRC 2018上,RoBERTa-wwm-ext-large模型表现最佳,EM值达到74.2,F1值达到90.6。

CMRC 2018效果

模型 开发集 测试集 挑战集
BERT 65.5 (64.4) / 84.5 (84.0) 70.0 (68.7) / 87.0 (86.3) 18.6 (17.0) / 43.3 (41.3)
RoBERTa-wwm-ext-large 68.5 (67.6) / 88.4 (87.9) 74.2 (72.4) / 90.6 (90.0) 31.5 (30.1) / 60.1 (57.5)

文本分类任务

在THUCNews新闻分类数据集上,各模型表现如下:

THUCNews分类效果

模型 开发集准确率 测试集准确率
BERT 97.7 (97.4) 97.8 (97.6)
RoBERTa-wwm-ext 98.3 (97.9) 97.7 (97.5)
RoBERTa-wwm-ext-large 98.3 (97.7) 97.8 (97.6)

命名实体识别任务

在MSRA-NER数据集上的实体识别效果对比:

NER效果

快速上手

使用Huggingface Transformers加载

from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained("hfl/chinese-roberta-wwm-ext")
model = BertModel.from_pretrained("hfl/chinese-roberta-wwm-ext")

text = "今天天气真好"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

数据集资源

项目包含多个中文NLP任务数据集,位于data/目录下:

使用建议

  1. 学习率调整:BERT/wwm模型通常需要较小的初始学习率(2e-5~5e-5),而ERNIE需要较高学习率(5e-5~8e-5)
  2. 数据适配:若任务数据与预训练领域差异大,建议在任务数据上进行二次预训练
  3. 繁体中文处理:优先选择BERT/wwm系列,ERNIE词表中繁体字符较少
  4. 资源权衡:性能优先选择RoBERTa-wwm-ext-large,资源受限可选用RBT3/RBTL3轻量级模型

引用与致谢

如果使用本项目成果,请引用相关论文:

@article{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  doi={10.1109/TASLP.2021.3124365},
}

项目第一作者部分受到谷歌TPU Research Cloud计划资助,更多技术细节参见项目README

登录后查看全文
热门项目推荐
相关项目推荐