Revisiting Few-sample BERT Fine-tuning 项目使用教程

2025-04-18 10:33:57作者：曹令琨Iris

1. 项目的目录结构及介绍

项目目录结构如下：

.
├── sample_commands
├── LICENSE
├── README.md
├── mixout.py
├── model_utils.py
├── options.py
├── prior_wd_optim.py
├── repo_illustration.png
├── requirements.txt
├── run_glue.py
└── ...

sample_commands: 包含示例脚本，用于启动不同的训练和优化流程。
LICENSE: 项目的开源协议文件。
README.md: 项目的介绍文件，包含了项目的概述、安装和使用的说明。
mixout.py: 实现了Mixout方法的代码。
model_utils.py: 包含模型工具类的代码。
options.py: 包含命令行参数解析的代码。
prior_wd_optim.py: 实现了预训练权重衰减优化的代码。
repo_illustration.png: 项目的示意图。
requirements.txt: 项目所需的Python库依赖。
run_glue.py: 主程序文件，用于模型的微调和评估。

2. 项目的启动文件介绍

项目的启动主要依赖于sample_commands目录下的脚本。以下是一些示例脚本的说明：

debiased_adam_baseline.sh: 启动使用BERT baseline（带偏差校正的Adam优化器）的训练。
reinit.sh: 启动使用重新初始化的BERT模型训练。
debiased_adam_longer.sh: 启动使用BERT baseline，但迭代次数更多的训练。
mixout.sh: 启动使用Mixout方法的训练。
llrd.sh: 启动使用层学习率衰减的训练。
pretrained_wd.sh: 启动使用预训练权重衰减的训练。

使用这些脚本前，需要确保已经正确设置了--data_dir、--output_dir和--cache_dir等参数，指向数据文件夹、输出文件夹和transformers缓存目录。

3. 项目的配置文件介绍

项目的配置主要通过命令行参数进行，这些参数在run_glue.py脚本中定义。以下是一些重要的配置参数：

--use_bertadam: 不使用偏差校正，即BERTAdam的行为。
--use_torch_adamw: 使用PyTorch的AdamW优化器，这是去偏差的Adam。
--reinit_pooler: 重新初始化pooler层。
--reinit_layers: 重新初始化最后的N个Transformer块。需要--reinit_pooler参数同时开启。

可以通过执行python run_glue.py --help命令查看所有可用的选项和参数。所有的参数值都会被保存在training_args.bin文件中，方便之后的使用和查看。

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统