BioBERT：生物医学文本挖掘的强大预训练模型

2026-02-06 04:11:12作者：明树来

BioBERT是由韩国国立首尔大学DMIS-Lab开发的生物医学语言表示模型，专为生物医学文本挖掘任务而设计。该模型基于Google的BERT架构，通过在生物医学领域的大规模文本数据上进行预训练，显著提升了在生物医学命名实体识别、关系抽取和问答系统等任务的性能表现。

技术架构与核心特性

BioBERT采用Transformer架构，通过掩码语言建模和下一句预测任务进行预训练。模型提供了多个版本的预训练权重，分别基于PubMed和PMC等生物医学文献数据集训练而成，满足不同应用场景的需求。

模型支持TensorFlow和PyTorch两种主流深度学习框架，为用户提供了灵活的部署选择。预训练权重包含不同规模的版本，从基础的BERT-base架构到更大的BERT-large架构，为用户提供了丰富的选择空间。

安装与快速开始

要使用BioBERT进行生物医学文本挖掘任务，首先需要克隆项目仓库：

git clone https://gitcode.com/gh_mirrors/bi/biobert
cd biobert
pip install -r requirements.txt

项目提供了便捷的数据集下载脚本，可以一键获取所有基准数据集：

./download.sh

预训练权重版本

BioBERT提供多个经过验证的预训练权重版本：

BioBERT-Base v1.2：基于PubMed 1M数据训练，包含语言模型头
BioBERT-Large v1.1：基于BERT-large架构，使用PubMed 1M数据训练
BioBERT-Base v1.1：基于BERT-base架构，使用PubMed 1M数据训练
BioBERT-Base v1.0：提供PubMed 200K、PMC 270K以及两者混合版本

应用场景与任务支持

命名实体识别（NER）

BioBERT在生物医学命名实体识别任务中表现出色，支持疾病、基因、蛋白质等多种生物医学实体的识别。通过run_ner.py脚本可以快速进行模型微调和评估。

关系抽取（RE）

模型能够识别生物医学实体之间的复杂关系，如药物-疾病关系、蛋白质-蛋白质相互作用等。使用run_re.py脚本进行关系抽取任务的训练和预测。

问答系统（QA）

BioBERT在生物医学问答任务中具有优异表现，特别在BioASQ等权威评测中取得了领先成绩。run_qa.py脚本提供了完整的问答系统训练和评估流程。

性能表现

在多个标准生物医学文本挖掘基准测试中，BioBERT均取得了state-of-the-art的性能：

在NCBI疾病数据集上的命名实体识别F1得分达到89.7%
在GAD关系抽取数据集上的F1得分达到83.7%
在BioASQ问答任务中展现出卓越的准确率

数据集支持

项目提供了丰富的预处理数据集，包括：

8个生物医学命名实体识别数据集
2个关系抽取数据集
3个问答任务数据集

所有数据集都经过精心预处理，可以直接用于模型训练和评估。

扩展生态

基于BioBERT的核心技术，研究团队还开发了多个衍生产品：

BERN：基于Web的生物医学实体识别和规范化工具
BERN2：增强版的生物医学实体识别系统
covidAsk：针对COVID-19的实时问答系统

学术贡献

BioBERT的相关研究成果已发表在Bioinformatics期刊上，获得了学术界的广泛认可。该工作为生物医学自然语言处理领域提供了重要的技术基础，推动了生物医学文本挖掘技术的发展。

技术优势

领域专业化：专门针对生物医学文本进行优化
多任务支持：支持命名实体识别、关系抽取、问答等多种任务
易于使用：提供完整的训练和评估脚本
高性能：在多个基准测试中达到领先水平
持续更新：研究团队持续维护和更新模型版本

BioBERT作为生物医学文本挖掘领域的重要工具，为研究人员和开发者提供了强大的技术支撑，助力生物医学信息的智能化处理和分析。

biobert

Bioinformatics'2020: BioBERT: a pre-trained biomedical language representation model for biomedical text mining

项目地址：https://gitcode.com/gh_mirrors/bi/biobert

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

830

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。