首页
/ ClinicalBERT 项目使用教程

ClinicalBERT 项目使用教程

2024-09-18 12:17:51作者:秋阔奎Evelyn

1. 项目目录结构及介绍

clinicalBERT/
├── data/
│   ├── discharge/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 3days/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 2days/
│   │   ├── test.csv
├── model/
│   ├── discharge_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── early_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── pretraining/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   │   ├── vocab.txt
├── notebooks/
│   ├── attention.ipynb
├── scripts/
│   ├── file_utils.py
│   ├── modeling_readmission.py
│   ├── preprocess.py
│   ├── run_readmission.py
├── README.md

目录结构说明

  • data/: 存放数据文件,包括出院总结和前几天的笔记数据。
    • discharge/: 出院总结数据。
    • 3days/: 前三天笔记数据。
    • 2days/: 前两天笔记数据。
  • model/: 存放预训练和微调的模型权重文件。
    • discharge_readmission/: 出院总结微调模型。
    • early_readmission/: 早期笔记微调模型。
    • pretraining/: 预训练模型。
  • notebooks/: 存放Jupyter Notebook文件,用于可视化自注意力机制。
  • scripts/: 存放Python脚本文件,用于数据预处理、模型训练和预测。
  • README.md: 项目说明文件。

2. 项目启动文件介绍

run_readmission.py

该脚本是用于运行医院30天再入院预测的主要脚本。它支持训练、评估和预测功能。

主要参数

  • --task_name: 任务名称,例如 readmission
  • --readmission_mode: 预测模式,可选 earlydischarge
  • --do_train: 是否进行训练。
  • --do_eval: 是否进行评估。
  • --data_dir: 数据文件路径。
  • --bert_model: 使用的BERT模型路径。
  • --max_seq_length: 最大序列长度。
  • --output_dir: 输出结果路径。

示例

python scripts/run_readmission.py \
  --task_name readmission \
  --readmission_mode early \
  --do_eval \
  --data_dir data/3days/ \
  --bert_model model/early_readmission \
  --max_seq_length 512 \
  --output_dir result_early

3. 项目的配置文件介绍

bert_config.json

该文件位于 model/ 目录下的各个子目录中,用于配置BERT模型的参数。

示例配置

{
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "type_vocab_size": 2,
  "vocab_size": 30522
}

pytorch_model.bin

该文件是BERT模型的权重文件,用于加载预训练或微调后的模型。

vocab.txt

该文件位于 model/pretraining/ 目录下,包含BERT模型的词汇表。

总结

通过本教程,您可以了解ClinicalBERT项目的目录结构、启动文件和配置文件的使用方法。希望这些信息能帮助您更好地理解和使用该项目。

登录后查看全文
热门项目推荐