HuggingFace Transformers项目中的Qwen2.5模型微调与加载问题解析

2025-04-26 04:40:52作者：韦蓉瑛

🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.

项目地址：https://gitcode.com/GitHub_Trending/tra/transformers

在HuggingFace Transformers生态系统中，使用QLoRA技术微调Qwen2.5模型时，开发者可能会遇到一个典型的问题：当尝试加载经过微调的模型时，系统会报告"size mismatch"错误，具体表现为lm_head层的权重形状不匹配。这个问题涉及到模型架构、参数保存与加载机制等多个技术细节。

问题现象

当开发者使用SFTTrainer对Qwen2.5-0.5B模型进行微调后，尝试通过AutoPeftModelForCausalLM加载模型时，会遇到如下错误提示：

size mismatch for base_model.model.lm_head.modules_to_save.default.weight: 
copying a param with shape torch.Size([151936, 896]) from checkpoint, 
the shape in current model is torch.Size([151665, 896])

这个错误表明，保存的检查点中lm_head层的输出维度(151936)与当前模型预期的维度(151665)不一致，导致无法正确加载权重。

技术背景

Qwen2.5系列模型采用了特殊的词表设计，其原始词表大小与标准Transformer模型有所不同。在微调过程中，当使用Peft(Parameter-Efficient Fine-Tuning)技术时，特别是包含了modules_to_save参数(保存完整层而不仅仅是适配器)的情况下，系统会保存完整的lm_head层权重。

问题根源

经过分析，这个问题主要由以下几个因素共同导致：

词表扩展机制：在微调过程中，可能由于添加特殊token或其他操作，导致词表大小发生变化
权重保存方式：使用modules_to_save保存完整层而非适配器时，会保存扩展后的词表对应的权重
自动调整机制：AutoPeftModelForCausalLM在加载时会根据tokenizer自动调整模型词表大小

解决方案

针对这个问题，开发者可以采用以下几种解决方案：

显式指定词表大小：在加载模型前，先手动调整基础模型的词表大小

base_model = AutoModelForCausalLM.from_pretrained('Qwen/Qwen2.5-0.5B')
base_model.resize_token_embeddings(151936)  # 显式指定词表大小
model = PeftModel.from_pretrained(base_model, peft_model_id)