BioBERT-PyTorch 项目使用教程

2026-01-23 04:30:09作者：史锋燃Gardner

1. 项目目录结构及介绍

biobert-pytorch/
├── embedding/
│   ├── ...
│   └── README.md
├── named-entity-recognition/
│   ├── ...
│   └── README.md
├── question-answering/
│   ├── ...
│   └── README.md
├── relation-extraction/
│   ├── ...
│   └── README.md
├── LICENSE
├── README.md
└── download.sh

目录结构介绍

embedding/: 包含BioBERT嵌入的相关代码和示例。
named-entity-recognition/: 包含使用BioBERT进行命名实体识别（NER）的相关代码和示例。
question-answering/: 包含使用BioBERT进行问答（QA）的相关代码和示例。
relation-extraction/: 包含使用BioBERT进行关系抽取（RE）的相关代码和示例。
LICENSE: 项目的开源许可证文件。
README.md: 项目的主README文件，包含项目的基本介绍和使用说明。
download.sh: 用于下载数据集的脚本。

2. 项目的启动文件介绍

启动文件

项目的启动文件主要分布在各个子目录中，例如：

named-entity-recognition/run_ner.py: 用于启动NER任务的Python脚本。
question-answering/run_qa.py: 用于启动QA任务的Python脚本。
relation-extraction/run_re.py: 用于启动RE任务的Python脚本。

示例

以NER任务为例，启动文件的使用方法如下：

# 进入NER目录
cd named-entity-recognition

# 预处理数据集
./preprocess.sh

# 设置环境变量
export DATA_DIR=./datasets/NER
export ENTITY=NCBI-disease

# 运行NER任务
python run_ner.py \
  --data_dir $DATA_DIR/$ENTITY \
  --labels $DATA_DIR/$ENTITY/labels.txt \
  --model_name_or_path dmis-lab/biobert-base-cased-v1.1 \
  --output_dir output/$ENTITY \
  --max_seq_length 128 \
  --num_train_epochs 3 \
  --per_device_train_batch_size 32 \
  --save_steps 1000 \
  --seed 1 \
  --do_train \
  --do_eval \
  --do_predict \
  --overwrite_output_dir

3. 项目的配置文件介绍

配置文件

BioBERT-PyTorch项目中没有显式的配置文件，但可以通过命令行参数进行配置。例如，在启动NER任务时，可以通过--model_name_or_path参数指定使用的BioBERT模型版本。

示例

# 指定使用的BioBERT模型版本
python run_ner.py \
  --model_name_or_path dmis-lab/biobert-base-cased-v1.1

其他配置

--data_dir: 指定数据集的目录。
--labels: 指定标签文件的路径。
--output_dir: 指定输出结果的目录。
--max_seq_length: 设置最大序列长度。
--num_train_epochs: 设置训练的轮数。
--per_device_train_batch_size: 设置每个设备的训练批次大小。
--save_steps: 设置保存模型的步数。
--seed: 设置随机种子。
--do_train: 是否进行训练。
--do_eval: 是否进行评估。
--do_predict: 是否进行预测。
--overwrite_output_dir: 是否覆盖输出目录。

通过这些配置参数，可以灵活地调整BioBERT-PyTorch项目的运行方式。

biobert-pytorch

PyTorch Implementation of BioBERT

项目地址：https://gitcode.com/gh_mirrors/bi/biobert-pytorch

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781