bitsandbytes项目中的量化加载问题分析与解决方案

2025-05-31 09:29:41作者：董灵辛Dennis

问题背景

在深度学习模型部署和推理过程中，模型量化技术被广泛用于减少内存占用和提高推理速度。bitsandbytes作为一个流行的量化库，支持4位和8位的模型量化。然而，在实际应用中，用户可能会遇到无法成功加载预训练因果语言模型(Causal LM)进行量化的问题。

问题现象

用户在尝试加载"togethercomputer/evo-1-8k-base"模型时，遇到了以下问题：

模型可以正常加载为bfloat16格式
但尝试以4位或8位量化加载时失败
错误信息显示在深度复制(deepcopy)过程中出现"NoneType对象不可调用"的错误

技术分析

根本原因

经过分析，这个问题主要源于几个技术层面的因素：

模型架构特殊性：目标模型使用了自定义的StripedHyena架构，不完全符合标准Transformer的实现规范
权重绑定机制：模型配置中设置了tie_embeddings=True，但缺少必要的get_output_embeddings方法实现
量化跳过模块：某些特殊模块(如embedding_layer、poles、residues)需要显式排除在量化过程外

量化加载流程解析

标准的bitsandbytes量化加载流程包括以下关键步骤：

预处理阶段：识别不需要量化的模块
权重加载阶段：将原始权重转换为量化格式
后处理阶段：处理权重绑定等特殊逻辑

在问题模型中，预处理阶段的深度复制操作由于模型架构的特殊性而失败。

解决方案

临时解决方案

通过显式指定跳过量化的模块，可以解决加载问题：

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_storage=torch.bfloat16,
    llm_int8_skip_modules=["embedding_layer", "poles", "residues"]
)

完整解决方案

对于使用自定义架构的模型，建议采取以下完整措施：

实现必要的模型方法：
- 确保实现get_output_embeddings方法
- 使用标准命名tie_word_embeddings而非tie_embeddings
处理特殊模块：
- 将FlashAttention相关层(Wqkv)也加入跳过列表
- 手动处理权重绑定关系
量化训练与保存：
- 训练时保持量化状态
- 保存时考虑量化格式的特殊性