开源项目最佳实践：Neural Text Generation with Unlikelihood Training

2025-05-23 04:54:08作者：傅爽业Veleda

1. 项目介绍

本项目是基于论文《Neural Text Generation with Unlikelihood Training》的实现，该论文提出了一种新的神经文本生成训练方法，即不可能性训练（Unlikelihood Training）。这种方法通过惩罚模型生成不可能的输出序列，从而提高模型生成高质量文本的能力。本项目包含了不可能性训练的实现代码、模型微调工具以及评估方法，为研究者和开发者提供了一个实践和探索的平台。

2. 项目快速启动

环境准备

首先，你需要准备以下环境：

Python 3.x
PyTorch
fairseq
nltk
pandas
pytorch-transformers
tensorflow (可选，用于GPT-2微调)
tensorboardX (可选，用于日志记录)

克隆项目

git clone https://github.com/facebookresearch/unlikelihood_training.git
cd unlikelihood_training

安装依赖

安装fairseq：

git clone https://github.com/pytorch/fairseq.git
cd fairseq
git checkout 2b68e91f231a2b7997664e1418f30b808d889963
pip install --editable .

安装其他依赖：

pip install nltk pandas pytorch-transformers

如果需要微调GPT-2模型，还需要安装tensorflow和tensorboardX：

pip install tensorflow=1.14 tensorboardX

安装指定版本的PyTorch（覆盖fairseq安装的版本）：

pip install torch==1.4.0

安装不可能性模块

将本项目中的custom目录复制到fairseq项目中：

export FAIRSEQ_DIR=/path/to/fairseq
export UNLIKELIHOOD_DIR=/path/to/unlikelihood_training
cp -r $UNLIKELIHOOD_DIR/custom $FAIRSEQ_DIR/fairseq

数据集准备

下载并解压wikipedia-103数据集：

wget https://dl.fbaipublicfiles.com/unlikelihood/wikitext-103_v0.tar.gz
tar xzvf wikitext-103_v0.tar.gz

训练模型

以下命令将在$FAIRSEQ_DIR目录下启动模型的训练：

python -u ./train.py --task language_modeling_with_generation ./data-bin/wikitext-103 \
--user-dir ./fairseq/custom --arch transformer_lm_ul --max-tokens 1536 --tokens-per-sample 1536 \
--fp16 --max-update 286000 --max-lr 1.0 --t-mult 2 --lr-period-updates 270000 \
--lr-scheduler cosine --lr-shrink 0.75 --warmup-updates 16000 --warmup-init-lr 1e-07 --min-lr 1e-09 \
--optimizer nag --lr 0.0001 --clip-norm 0.1 --update-freq 3 --seed 1 --sample-break-mode none \
--skip-invalid-size-inputs-valid-test --ddp-backend no_c10d --save-interval-updates 10000 \
--keep-interval-updates 2 --no-progress-bar --log-interval 100 \
--criterion cross_entropy_wcustom_metrics \
--save-dir ./checkpoint/baseline_model \
--tensorboard-logdir ./checkpoint/baseline_model

3. 应用案例和最佳实践

模型微调

在获得基线模型后，可以通过微调来进一步优化模型。以下命令展示了如何对基线模型进行序列级别的微调：

python -u ./train.py --task language_modeling_with_generation ./data-bin/wikitext-103 \
--user-dir ./fairseq/custom --arch transformer_lm_ul --max-tokens 1536 --tokens-per-sample 1536 \
--fp16 --max-update 1500 --max-lr 1.0e-2 --t-mult 2 --lr-period-updates 270000 \
--lr-scheduler cosine --lr-shrink 0.75 --warmup-updates 0 --warmup-init-lr 1e-07 --min-lr 1e-09 \
--optimizer nag --lr 0.0001 --clip-norm 0.1 --update-freq 3 --seed 1 --sample-break-mode none \
--skip-invalid-size-inputs-valid-test --ddp-backend no_c10d --save-interval-updates 100 \
--keep-interval-updates 2 --no-progress-bar --log-interval 10 \
--rank-alpha 1.0 --sequence-level-train-rate 0.5 \
--reset-lr-scheduler --reset-optimizer --reset-meters \
--compute-metrics-interval 1 --restore-file ./public_checkpoints/mle_baseline/checkpoint_best.pt \
--criterion cross_entropy_wcustom_metrics \
--sequence-prefix-length 50 --sequence-completion-length 100 \
--sequence-ngram-n 4 \
--save-dir ./checkpoint/seq_level_on_baseline \
--tensorboard-logdir ./checkpoint/seq_level_on_baseline