PEFT项目中使用ChatGLM模型遇到的NoneType问题分析与解决

2025-05-12 22:09:47作者：宣利权Counsellor

问题背景

在使用PEFT(Parameter-Efficient Fine-Tuning)项目对ChatGLM模型进行微调时，开发者遇到了一个典型的错误：AttributeError: 'NoneType' object has no attribute 'shape'。这个问题出现在尝试使用PromptEncoder对THUDM/glm-4-9b-chat模型进行参数高效微调时。

错误原因深度分析

该错误的根本原因在于ChatGLM模型的特殊实现方式与PEFT的PromptEncoder机制之间存在兼容性问题。具体表现为：

模型架构差异：ChatGLM模型采用了自定义的前向传播逻辑，与标准Transformer模型有所不同
输入处理方式：PromptEncoder在内部处理时会直接传递inputs_embeds而非input_ids
空值检查缺失：原始ChatGLM代码中缺少对input_ids为None情况的处理逻辑

解决方案实现

经过深入分析，我们确定了以下几种解决方案：

方案一：修改模型源码

在ChatGLM的modeling_chatglm.py文件中，需要对两处关键代码进行修改：

添加空值检查：在获取batch_size和seq_length时，需要同时考虑input_ids和inputs_embeds两种情况
完善注意力掩码生成：当full_attention_mask为None时，需要正确处理各种边界情况

具体修改如下：

# 修改点1：添加空值检查
if input_ids is not None:
    batch_size, seq_length = input_ids.shape
else:
    batch_size, seq_length, _ = inputs_embeds.shape

# 修改点2：完善注意力掩码生成
if full_attention_mask is None:
    if (attention_mask is not None and not attention_mask.all()) or (past_key_values and seq_length != 1):
        fake_ids = torch.zeros(batch_size, seq_length, dtype=torch.long, device=inputs_embeds.device)
        full_attention_mask = self.get_masks(fake_ids, past_key_values, padding_mask=attention_mask)

方案二：使用Monkey Patching

对于不希望直接修改模型源码的情况，可以采用Monkey Patching的方式动态修改模型行为：

def patched_forward(self, *args, **kwargs):
    # 自定义前向传播逻辑
    ...

original_forward = ChatGLMModel.forward
ChatGLMModel.forward = patched_forward

最佳实践建议

版本控制：确保使用兼容的transformers和peft版本（如transformers 4.43.3）
数据类型检查：在微调代码中添加完善的输入验证逻辑
调试信息：在关键步骤添加调试输出，便于问题定位
异常处理：对可能出现的边界情况进行妥善处理

扩展思考

这个问题反映了大型语言模型微调过程中的一个常见挑战：当使用自定义模型架构时，如何确保与参数高效微调方法的兼容性。开发者需要：

深入理解模型的前向传播逻辑
掌握PEFT各适配器的工作原理
具备调试复杂模型交互问题的能力

通过解决此类问题，我们不仅能够完成特定模型的微调任务，还能积累处理类似兼容性问题的宝贵经验，为未来使用其他自定义模型打下坚实基础。

peft

🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.

项目地址：https://gitcode.com/gh_mirrors/pe/peft

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

350

203

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

PEFT项目中使用ChatGLM模型遇到的NoneType问题分析与解决

问题背景

错误原因深度分析

解决方案实现

方案一：修改模型源码

方案二：使用Monkey Patching

最佳实践建议

扩展思考

热门内容推荐

最新内容推荐

项目优选

PEFT项目中使用ChatGLM模型遇到的NoneType问题分析与解决

问题背景

错误原因深度分析

解决方案实现

方案一：修改模型源码

方案二：使用Monkey Patching

最佳实践建议

扩展思考

相关内容推荐

热门内容推荐

最新内容推荐

项目优选