首页
/ ClinicalBERT 项目使用教程

ClinicalBERT 项目使用教程

2024-09-18 00:11:33作者:秋阔奎Evelyn

1. 项目目录结构及介绍

clinicalBERT/
├── data/
│   ├── discharge/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 3days/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 2days/
│   │   ├── test.csv
├── model/
│   ├── discharge_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── early_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── pretraining/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   │   ├── vocab.txt
├── notebooks/
│   ├── attention.ipynb
├── scripts/
│   ├── file_utils.py
│   ├── modeling_readmission.py
│   ├── preprocess.py
│   ├── run_readmission.py
├── README.md

目录结构说明

  • data/: 存放数据文件,包括出院总结和前几天的笔记数据。
    • discharge/: 出院总结数据。
    • 3days/: 前三天笔记数据。
    • 2days/: 前两天笔记数据。
  • model/: 存放预训练和微调的模型权重文件。
    • discharge_readmission/: 出院总结微调模型。
    • early_readmission/: 早期笔记微调模型。
    • pretraining/: 预训练模型。
  • notebooks/: 存放Jupyter Notebook文件,用于可视化自注意力机制。
  • scripts/: 存放Python脚本文件,用于数据预处理、模型训练和预测。
  • README.md: 项目说明文件。

2. 项目启动文件介绍

run_readmission.py

该脚本是用于运行医院30天再入院预测的主要脚本。它支持训练、评估和预测功能。

主要参数

  • --task_name: 任务名称,例如 readmission
  • --readmission_mode: 预测模式,可选 earlydischarge
  • --do_train: 是否进行训练。
  • --do_eval: 是否进行评估。
  • --data_dir: 数据文件路径。
  • --bert_model: 使用的BERT模型路径。
  • --max_seq_length: 最大序列长度。
  • --output_dir: 输出结果路径。

示例

python scripts/run_readmission.py \
  --task_name readmission \
  --readmission_mode early \
  --do_eval \
  --data_dir data/3days/ \
  --bert_model model/early_readmission \
  --max_seq_length 512 \
  --output_dir result_early

3. 项目的配置文件介绍

bert_config.json

该文件位于 model/ 目录下的各个子目录中,用于配置BERT模型的参数。

示例配置

{
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "type_vocab_size": 2,
  "vocab_size": 30522
}

pytorch_model.bin

该文件是BERT模型的权重文件,用于加载预训练或微调后的模型。

vocab.txt

该文件位于 model/pretraining/ 目录下,包含BERT模型的词汇表。

总结

通过本教程,您可以了解ClinicalBERT项目的目录结构、启动文件和配置文件的使用方法。希望这些信息能帮助您更好地理解和使用该项目。

登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
23
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
225
2.27 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
flutter_flutterflutter_flutter
暂无简介
Dart
526
116
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
987
583
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
351
1.42 K
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
61
17
GLM-4.6GLM-4.6
GLM-4.6在GLM-4.5基础上全面升级:200K超长上下文窗口支持复杂任务,代码性能大幅提升,前端页面生成更优。推理能力增强且支持工具调用,智能体表现更出色,写作风格更贴合人类偏好。八项公开基准测试显示其全面超越GLM-4.5,比肩DeepSeek-V3.1-Terminus等国内外领先模型。【此简介由AI生成】
Jinja
47
0
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
17
0
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
JavaScript
212
287