PEFT项目中使用LoRA微调ChatGLM3-6B模型的注意事项

2025-05-12 10:36:40作者：韦蓉瑛

在自然语言处理领域，使用参数高效微调技术（PEFT）结合低秩适应（LoRA）对大型语言模型进行微调已成为一种流行方法。本文将重点讨论在使用PEFT库微调ChatGLM3-6B模型时遇到的一个典型问题及其解决方案。

问题现象

当开发者尝试使用PEFT的LoRA方法微调ChatGLM3-6B模型时，可能会遇到以下错误：

TypeError: ChatGLMForConditionalGeneration.forward() got an unexpected keyword argument 'decoder_input_ids'

这个错误通常发生在将任务类型（TaskType）错误地设置为SEQ_2_SEQ_LM（序列到序列语言模型）时。错误的核心在于模型架构与任务类型不匹配。

根本原因分析

ChatGLM3-6B本质上是一个因果语言模型（Causal LM），属于仅解码器（decoder-only）架构。而SEQ_2_SEQ_LM任务类型是为编码器-解码器（encoder-decoder）架构设计的，如T5或BART这类模型。

关键区别在于：

因果语言模型：单向注意力机制，适合生成任务
序列到序列模型：包含编码器和解码器两部分，适合翻译、摘要等任务

当开发者错误地将仅解码器模型配置为序列到序列任务时，训练过程会尝试传递decoder_input_ids参数，而ChatGLM3-6B的前向传播方法并不接受这个参数，从而导致上述错误。

正确配置方法

对于ChatGLM3-6B这类因果语言模型，正确的LoRA配置应该是：

lora_config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules=["q", "v"],
    lora_dropout=0.1,
    bias="none",
    task_type=TaskType.CAUSAL_LM,  # 使用CAUSAL_LM而非SEQ_2_SEQ_LM
)

模型架构与任务类型的匹配原则

在实际应用中，理解模型架构与任务类型的匹配关系至关重要：

因果语言模型（CAUSAL_LM）：适用于GPT系列、ChatGLM等仅解码器架构，用于文本生成、对话等任务
序列到序列模型（SEQ_2_SEQ_LM）：适用于T5、BART等编码器-解码器架构，用于翻译、摘要等任务
特征提取（FEATURE_EXTRACTION）：当只需要获取模型输出的隐藏状态时使用

虽然某些情况下可以通过适配器将一种架构用于不同任务（如将因果LM用于序列分类），但这种跨架构使用需要特别注意参数和方法的兼容性。

最佳实践建议

在配置LoRA前，务必查阅模型文档确认其架构类型
使用AutoModelForCausalLM而非AutoModelForSeq2SeqLM加载仅解码器模型
当不确定模型架构时，可以通过检查模型的config或尝试简单的前向传递来验证
保持PEFT库和Transformers库的版本更新，以获得最佳的兼容性

通过正确理解模型架构与任务类型的关系，开发者可以避免这类配置错误，更高效地利用PEFT进行模型微调。

peft

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

登录后查看全文