首页
/ ClinicalBERT 项目使用教程

ClinicalBERT 项目使用教程

2024-09-18 11:45:43作者:秋阔奎Evelyn

1. 项目目录结构及介绍

clinicalBERT/
├── data/
│   ├── discharge/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 3days/
│   │   ├── train.csv
│   │   ├── val.csv
│   │   ├── test.csv
│   ├── 2days/
│   │   ├── test.csv
├── model/
│   ├── discharge_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── early_readmission/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   ├── pretraining/
│   │   ├── bert_config.json
│   │   ├── pytorch_model.bin
│   │   ├── vocab.txt
├── notebooks/
│   ├── attention.ipynb
├── scripts/
│   ├── file_utils.py
│   ├── modeling_readmission.py
│   ├── preprocess.py
│   ├── run_readmission.py
├── README.md

目录结构说明

  • data/: 存放数据文件,包括出院总结和前几天的笔记数据。
    • discharge/: 出院总结数据。
    • 3days/: 前三天笔记数据。
    • 2days/: 前两天笔记数据。
  • model/: 存放预训练和微调的模型权重文件。
    • discharge_readmission/: 出院总结微调模型。
    • early_readmission/: 早期笔记微调模型。
    • pretraining/: 预训练模型。
  • notebooks/: 存放Jupyter Notebook文件,用于可视化自注意力机制。
  • scripts/: 存放Python脚本文件,用于数据预处理、模型训练和预测。
  • README.md: 项目说明文件。

2. 项目启动文件介绍

run_readmission.py

该脚本是用于运行医院30天再入院预测的主要脚本。它支持训练、评估和预测功能。

主要参数

  • --task_name: 任务名称,例如 readmission
  • --readmission_mode: 预测模式,可选 earlydischarge
  • --do_train: 是否进行训练。
  • --do_eval: 是否进行评估。
  • --data_dir: 数据文件路径。
  • --bert_model: 使用的BERT模型路径。
  • --max_seq_length: 最大序列长度。
  • --output_dir: 输出结果路径。

示例

python scripts/run_readmission.py \
  --task_name readmission \
  --readmission_mode early \
  --do_eval \
  --data_dir data/3days/ \
  --bert_model model/early_readmission \
  --max_seq_length 512 \
  --output_dir result_early

3. 项目的配置文件介绍

bert_config.json

该文件位于 model/ 目录下的各个子目录中,用于配置BERT模型的参数。

示例配置

{
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "type_vocab_size": 2,
  "vocab_size": 30522
}

pytorch_model.bin

该文件是BERT模型的权重文件,用于加载预训练或微调后的模型。

vocab.txt

该文件位于 model/pretraining/ 目录下,包含BERT模型的词汇表。

总结

通过本教程,您可以了解ClinicalBERT项目的目录结构、启动文件和配置文件的使用方法。希望这些信息能帮助您更好地理解和使用该项目。

热门项目推荐

项目优选

收起
CangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
669
0
RuoYi-Vue
🎉 基于SpringBoot,Spring Security,JWT,Vue & Element 的前后端分离权限管理系统,同时提供了 Vue3 的版本
Java
136
18
openHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
12
7
redis-sdk
仓颉语言实现的Redis客户端SDK。已适配仓颉0.53.4 Beta版本。接口设计兼容jedis接口语义,支持RESP2和RESP3协议,支持发布订阅模式,支持哨兵模式和集群模式。
Cangjie
322
26
advanced-java
Advanced-Java是一个Java进阶教程,适合用于学习Java高级特性和编程技巧。特点:内容深入、实例丰富、适合进阶学习。
JavaScript
75.83 K
19.04 K
qwerty-learner
为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers
TSX
15.56 K
1.44 K
Jpom
🚀简而轻的低侵入式在线构建、自动部署、日常运维、项目监控软件
Java
1.41 K
292
Yi-Coder
Yi Coder 编程模型,小而强大的编程助手
HTML
30
5
easy-es
Elasticsearch 国内Top1 elasticsearch搜索引擎框架es ORM框架,索引全自动智能托管,如丝般顺滑,与Mybatis-plus一致的API,屏蔽语言差异,开发者只需要会MySQL语法即可完成对Es的相关操作,零额外学习成本.底层采用RestHighLevelClient,兼具低码,易用,易拓展等特性,支持es独有的高亮,权重,分词,Geo,嵌套,父子类型等功能...
Java
1.42 K
231
taro
开放式跨端跨框架解决方案,支持使用 React/Vue/Nerv 等框架来开发微信/京东/百度/支付宝/字节跳动/ QQ 小程序/H5/React Native 等应用。 https://taro.zone/
TypeScript
35.34 K
4.77 K