Open-Instruct项目中使用Qwen-1.5/DeepSeek-1.5B模型进行微调的实践指南

2025-06-27 16:29:22作者：幸俭卉

"开放指令：加速训练智能语言模型的未来！这是一个致力于优化预训练语言模型在公开数据集上遵循指令能力的开源项目。我们不断更新代码库，引入最新技术和统一的数据集格式来微调模型，并提供标准化评估脚本，在一系列基准上测试模型的不同能力。随着模型和技巧的发展，我们持续分享检查点和其他宝贵资源。我们的研究始于《骆驼能走多远？探索在开放资源上进行指令调整的状态》一文，后续深入至Llama-2模型及偏好优化等前沿领域。加入我们，共同塑造更高效、适应性更强的语言处理未来！" 请注意，尽管我们竭力保持代码与技术文档的更新，但某些细节可能随时间而变化或因特定条件受限（如模型许可）。为了获得最佳结果并复现我们的工作，请参照提供的说明和注意事项，特别是在涉及深度学习框架版本和第三方库依赖时。无论是初学者还是专家，欢迎所有人参与贡献，一起推动自然语言处理领域的边界。

项目地址：https://gitcode.com/GitHub_Trending/op/open-instruct

在开源项目Open-Instruct中，研究人员和开发者经常需要对各种开源大语言模型进行监督微调(SFT)、直接偏好优化(DPO)和强化学习价值回归(RLVR)。本文将详细介绍如何使用该项目对Qwen-1.5和DeepSeek-1.5B这类15亿参数规模的模型进行高效微调。

准备工作

首先需要确保环境配置正确。Open-Instruct项目基于PyTorch和HuggingFace生态系统构建，建议使用最新版本的transformers库。对于Qwen系列模型，需要特别注意其特殊的tokenizer处理方式。

基础微调配置

对于Qwen2.5-7B模型的微调，可以使用以下典型配置作为参考：

python open_instruct/finetune.py \
    --model_name_or_path Qwen/Qwen2.5-7B \
    --tokenizer_name Qwen/Qwen2.5-7B \
    --chat_template tulu \
    --use_flash_attn \
    --max_seq_length 16384 \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 2 \
    --learning_rate 5e-06 \
    --num_train_epochs 2 \
    --output_dir /output \
    --dataset_mixer_list allenai/tulu-3-sft-mixture 1.0

对于1.5B参数的模型，只需将模型路径改为Qwen/Qwen2.5-1.5B即可。关键参数说明：

use_flash_attn: 启用Flash Attention加速训练
max_seq_length: 根据模型支持的最大上下文长度设置
dataset_mixer_list: 指定训练数据集的混合比例

多GPU训练配置

当使用多GPU进行分布式训练时，推荐使用accelerate库进行管理。以下是一个典型的多卡训练配置示例：

accelerate launch \
    --mixed_precision bf16 \
    --num_processes 2 \
    --use_deepspeed \
    --deepspeed_config_file configs/ds_configs/stage3_no_offloading_accelerate.conf \
    open_instruct/finetune.py \
    --model_name_or_path Qwen/Qwen2.5-1.5B \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 32 \
    --max_seq_length 4096

训练过程中的注意事项

损失值解读：项目默认使用sum损失而非平均损失，因此看到的损失值会较大(如700左右)，这是正常现象。实际模型可能仍在有效学习，建议通过下游任务评估模型性能。
特殊token处理：Qwen系列模型使用类似<|user|>这样的特殊token进行对话标记，需要确保tokenizer能正确处理这些标记。如果发现tokenization问题，可能需要检查chat_template的设置。
学习率调度：采用线性warmup策略，通常设置warmup_ratio为0.03，这表示训练的前3%步骤将用于学习率预热。
梯度累积：在显存有限的情况下，可以通过增大gradient_accumulation_steps来模拟更大的batch size，同时保持较高的训练稳定性。