ClinicalBERT 项目使用教程

2024-09-18 19:57:29作者：秋阔奎Evelyn

1. 项目目录结构及介绍

clinicalBERT/
├── data/
│   ├── discharge/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 3days/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 2days/
│   │   ├── test.csv
├── model/
│   ├── discharge_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── early_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── pretraining/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   │   ├── vocab.txt
├── notebooks/
│   ├── attention.ipynb
├── scripts/
│   ├── file_utils.py
│   ├── modeling_readmission.py
│   ├── preprocess.py
│   ├── run_readmission.py
├── README.md

目录结构说明

data/: 存放数据文件，包括出院总结和前几天的笔记数据。
- discharge/: 出院总结数据。
- 3days/: 前三天笔记数据。
- 2days/: 前两天笔记数据。
model/: 存放预训练和微调的模型权重文件。
- discharge_readmission/: 出院总结微调模型。
- early_readmission/: 早期笔记微调模型。
- pretraining/: 预训练模型。
notebooks/: 存放Jupyter Notebook文件，用于可视化自注意力机制。
scripts/: 存放Python脚本文件，用于数据预处理、模型训练和预测。
README.md: 项目说明文件。

2. 项目启动文件介绍

`run_readmission.py`

该脚本是用于运行医院30天再入院预测的主要脚本。它支持训练、评估和预测功能。

主要参数

--task_name: 任务名称，例如 readmission。
--readmission_mode: 预测模式，可选 early 或 discharge。
--do_train: 是否进行训练。
--do_eval: 是否进行评估。
--data_dir: 数据文件路径。
--bert_model: 使用的BERT模型路径。
--max_seq_length: 最大序列长度。
--output_dir: 输出结果路径。

示例

python scripts/run_readmission.py \
  --task_name readmission \
  --readmission_mode early \
  --do_eval \
  --data_dir data/3days/ \
  --bert_model model/early_readmission \
  --max_seq_length 512 \
  --output_dir result_early

3. 项目的配置文件介绍

`bert_config.json`

该文件位于 model/ 目录下的各个子目录中，用于配置BERT模型的参数。

示例配置

{
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "type_vocab_size": 2,
  "vocab_size": 30522
}