首页
/ ClinicalBERT 项目使用教程

ClinicalBERT 项目使用教程

2024-09-18 11:45:43作者:秋阔奎Evelyn

1. 项目目录结构及介绍

clinicalBERT/
├── data/
│   ├── discharge/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 3days/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 2days/
│   │   ├── test.csv
├── model/
│   ├── discharge_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── early_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── pretraining/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   │   ├── vocab.txt
├── notebooks/
│   ├── attention.ipynb
├── scripts/
│   ├── file_utils.py
│   ├── modeling_readmission.py
│   ├── preprocess.py
│   ├── run_readmission.py
├── README.md

目录结构说明

  • data/: 存放数据文件,包括出院总结和前几天的笔记数据。
    • discharge/: 出院总结数据。
    • 3days/: 前三天笔记数据。
    • 2days/: 前两天笔记数据。
  • model/: 存放预训练和微调的模型权重文件。
    • discharge_readmission/: 出院总结微调模型。
    • early_readmission/: 早期笔记微调模型。
    • pretraining/: 预训练模型。
  • notebooks/: 存放Jupyter Notebook文件,用于可视化自注意力机制。
  • scripts/: 存放Python脚本文件,用于数据预处理、模型训练和预测。
  • README.md: 项目说明文件。

2. 项目启动文件介绍

run_readmission.py

该脚本是用于运行医院30天再入院预测的主要脚本。它支持训练、评估和预测功能。

主要参数

  • --task_name: 任务名称,例如 readmission
  • --readmission_mode: 预测模式,可选 earlydischarge
  • --do_train: 是否进行训练。
  • --do_eval: 是否进行评估。
  • --data_dir: 数据文件路径。
  • --bert_model: 使用的BERT模型路径。
  • --max_seq_length: 最大序列长度。
  • --output_dir: 输出结果路径。

示例

python scripts/run_readmission.py \
  --task_name readmission \
  --readmission_mode early \
  --do_eval \
  --data_dir data/3days/ \
  --bert_model model/early_readmission \
  --max_seq_length 512 \
  --output_dir result_early

3. 项目的配置文件介绍

bert_config.json

该文件位于 model/ 目录下的各个子目录中,用于配置BERT模型的参数。

示例配置

{
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "type_vocab_size": 2,
  "vocab_size": 30522
}

pytorch_model.bin

该文件是BERT模型的权重文件,用于加载预训练或微调后的模型。

vocab.txt

该文件位于 model/pretraining/ 目录下,包含BERT模型的词汇表。

总结

通过本教程,您可以了解ClinicalBERT项目的目录结构、启动文件和配置文件的使用方法。希望这些信息能帮助您更好地理解和使用该项目。

热门项目推荐

项目优选

收起
Python-100-DaysPython-100-Days
Python - 100天从新手到大师
Python
267
55
国产编程语言蓝皮书国产编程语言蓝皮书
《国产编程语言蓝皮书》-编委会工作区
65
17
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
196
45
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
53
44
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
268
69
qwerty-learnerqwerty-learner
为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers
TSX
333
27
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
896
0
advanced-javaadvanced-java
Advanced-Java是一个Java进阶教程,适合用于学习Java高级特性和编程技巧。特点:内容深入、实例丰富、适合进阶学习。
JavaScript
419
108
MateChatMateChat
前端智能化场景解决方案UI库,轻松构建你的AI应用,我们将持续完善更新,欢迎你的使用与建议。 官网地址:https://matechat.gitcode.com
144
24
HarmonyOS-Cangjie-CasesHarmonyOS-Cangjie-Cases
参考 HarmonyOS-Cases/Cases,提供仓颉开发鸿蒙 NEXT 应用的案例集
Cangjie
58
4