PEFT项目中的QLoRA量化训练问题分析与解决方案

2025-05-12 20:28:56作者：裘旻烁

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

问题背景

在使用Hugging Face的PEFT库进行QLoRA量化训练时，用户遇到了一个RuntimeError错误："only Tensors of floating point dtype can require gradients"。这个问题在transformers 4.40版本后出现，而之前的4.38版本则能正常工作。

技术分析

错误根源

该问题的根本原因在于transformers 4.40版本对量化行为的改变。在之前的版本中，存在一个静默的错误：pre_classifier层被错误地量化了，而实际上只有最后一层应该被量化。transformers 4.40修复了这个错误，但导致了新的问题。

量化层选择

在量化模型时，需要注意：

通常只有模型的中间层应该被量化
分类头（classifier）和预分类层（pre_classifier）应该保持为浮点类型
这些层需要保持原始精度以便进行梯度计算和微调

解决方案

通过修改BitsAndBytesConfig配置，显式指定需要跳过量化的模块：

config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    llm_int8_skip_modules=["classifier", "pre_classifier"]
)

通用建议

对于不同的模型架构，确定需要跳过量化的模块时：

检查模型结构，识别出分类头和预分类层
对于LLM模型（如Llama3），可能需要跳过最后的输出层
可以通过打印模型结构来确认各层名称
当遇到类似错误时，尝试将错误提示中涉及的模块加入skip列表

最佳实践

始终检查模型结构，了解哪些层需要保持全精度
对于新模型，建议先进行小规模测试
保持PEFT和transformers库的版本兼容性
记录成功的配置方案，便于后续参考

总结

量化训练是一个精细的过程，需要特别注意各层的量化策略。通过合理配置skip_modules参数，可以解决QLoRA训练中的梯度计算问题，同时保持模型的训练效果。这一解决方案不仅适用于DistilBERT，也可推广到其他模型架构的量化训练中。

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用