开源项目最佳实践教程：PygmalionAI训练代码

2025-05-19 05:32:50作者：滑思眉Philip

1. 项目介绍

PygmalionAI训练代码是一个用于监督或无监督微调因果语言模型的代码库。该项目基于HuggingFace的Trainer类，并包含一些额外的特性，如可选的xFormers和LoRA训练。这个项目可以帮助开发者更容易地进行模型训练，优化模型性能。

2. 项目快速启动

以下步骤将帮助您快速启动并运行PygmalionAI训练代码。

首先，您需要安装必要的依赖项。可以从requirements.txt文件中获取依赖列表，并使用以下命令安装：

pip install -r requirements.txt

对于一些可选的包，您可以运行：

pip install -r requirements-recommended.txt

接下来，准备您的训练数据。数据应该是一个JSONL（jsonlines）文件，每行是一个包含prompt和generation键的JSON对象。您可以按照以下格式准备数据：

{
  "prompt": "这是一个提示。",
  "generation": "这是预期的生成文本。"
}

然后，使用以下脚本对数据进行分词：

python3 ./preparation/tokenize_data_sft.py \
  --input-file '/path/to/your/data.jsonl' \
  --output-file '/path/to/your/output.pythia.arrow' \
  --tokenizer-path 'EleutherAI/pythia-410m-deduped' \
  --max-length 2048

最后，开始训练。您可以使用以下命令启动训练过程：

accelerate launch ./training/hf_trainer.py \
  --model_name_or_path 'EleutherAI/pythia-410m-deduped' \
  --train_file '/path/to/your/train.pythia.arrow' \
  --eval_file '/path/to/your/eval.pythia.arrow' \
  --output_dir '/path/to/your/checkpoints' \
  --report_to 'wandb' \
  --do_train --do_eval \
  --ddp_find_unused_parameters false \
  --optim 'adamw_torch_fused' \
  --seed 42 --data_seed 42 \
  --logging_first_step true --logging_steps 1 \
  --dataloader_num_workers 1 \
  --per_device_train_batch_size 8 \
  --per_device_eval_batch_size 8 \
  --fp16 true \
  --low_cpu_mem_usage true \
  --evaluation_strategy 'steps' --eval_steps 128 \
  --save_strategy 'steps' --save_steps 128 --save_total_limit 2 \
  --gradient_accumulation_steps 8 \
  --learning_rate 1.0e-5 \
  --lr_scheduler_type 'cosine' \
  --warmup_steps 64 \
  --num_train_epochs 1