BoLT项目最佳实践教程

2025-05-26 14:02:01作者：齐添朝

1. 项目介绍

BoLT（Bootstrapping Latent Thoughts）是一个旨在通过推理学习从潜在思维中学习的数据效率预训练语言模型的方法。该方法受到人类如何从有限数据中通过深思熟虑来学习的启发，训练语言模型来推断或“解压缩”观测数据背后高度压缩的潜在思维。这些合成的潜在思维在预训练期间增强了原始观测数据，提高了模型的数据效率。通过期望最大化算法迭代应用这一过程，可以形成一个模型自我提升循环，使模型能够生成更有效的潜在思维，进而训练出更强大的模型。

2. 项目快速启动

环境准备

首先，创建一个conda环境并激活它：

conda env create -f environment.yaml
conda activate bootstrap-latents

接着，安装所需的依赖：

bash bin/install_requirements.sh

数据和预训练 checkpoints 准备

创建软链接以存储大型数据集和实验检查点：

ln -s [YOUR_SCRATCH_DIR]/data data
ln -s [YOUR_SCRATCH_DIR]/exp_logs exp_logs

创建一个.env文件，包含您的API密钥信息：

OPENAI_API_KEY=[YOUR_OPENAI_API_KEY]
HF_TOKEN=[YOUR_HF_TOKEN]

如果使用sphinx，请在bin/slurm.sh中指定slurm配置。

下载预训练的TinyLlama checkpoints并将其转换为Lingua兼容的格式：

bash bin/prepare_hf_ckpts.sh

下载并预处理FineMath-4+数据集：

bash bin/prepare_hf_datasets.sh [DOWNLOAD_PREPROCESSED_DATASETS]

运行实验

准备原始数据集：

bash bin/prepare_data.sh warmstart [DOWNLOAD_PREPROCESSED_DATASETS]

使用GPT-4o-mini批量API生成合成数据：

bash bin/run_gen_latents.sh [METHOD] [DOWNLOAD_PREPROCESSED_DATASETS]

其中[METHOD]可以是latent_thoughts、wrap_baseline或wrap_cot。

运行训练脚本，使用不同的合成数据：

bash ./bin/run_train_warmstart.sh [MODE] synth_data_method_compare.sh [DATA_TYPE]

[MODE]可以是cat（仅打印命令）、run（本地运行）或launch（提交到slurm）。[DATA_TYPE]可以是latent_thoughts、raw_repeat、raw_fresh、wrap_baseline或wrap_cot。

3. 应用案例和最佳实践

数据增强

在数据受限的情况下，可以通过合成潜在思维来增强训练数据，从而提高模型的性能。具体操作包括：

使用GPT-4o-mini生成合成数据。
将生成的潜在思维与原始数据结合进行预训练。

模型自我提升

通过迭代训练和使用自我生成的潜在思维，可以不断改进模型。这一过程包括：

在固定的原始数据集上训练初始模型。
使用训练好的模型生成新的潜在思维。
在新的潜在思维上继续训练模型。

4. 典型生态项目

BoLT可以与其他自然语言处理项目配合使用，例如：

与数据预处理工具链结合，优化数据准备过程。
与模型评估工具集成，以监控模型性能。
结合其他机器学习库，如TensorFlow或PyTorch，进行更深入的模型研究和开发。

登录后查看全文