LLMs-from-scratch项目中微调LLM分类任务时输出层处理分析

2025-05-01 03:23:13作者：范垣楠Rhoda

在LLMs-from-scratch项目的第六章示例中，展示了如何微调大型语言模型(LLM)用于分类任务。其中涉及到一个关键的技术细节：如何正确修改模型的输出层以适应分类任务需求。

输出层修改的技术背景

当我们将预训练的LLM用于分类任务时，通常需要调整模型的输出层。原始LLM的输出层(lm_head)设计用于语言模型任务，输出维度对应词汇表大小(如32000)。而分类任务通常只需要少量输出(如二分类任务只需2个输出)。

示例代码中的问题

在项目示例中，直接使用以下代码修改输出层：

peft_model.base_model.lm_head = torch.nn.Linear(...)

这会导致模型结构中意外地出现两个lm_head层：

原始的语言模型输出层(32000维)
新添加的分类输出层(2维)

正确的修改方式

经过分析，正确的做法应该是修改模型内部嵌套的lm_head层：

peft_model.base_model.model.lm_head = torch.nn.Linear(...)

这种差异源于HuggingFace模型实现的结构特点，其中base_model内部又嵌套了一个model对象，真正的输出层位于更深层的结构中。

技术原理分析

模型结构嵌套：现代LLM实现通常采用多层嵌套结构，base_model可能只是外层包装，真正的模型实现位于更深层次
PEFT适配：使用参数高效微调(PEFT)时，需要特别注意模型结构的访问路径，因为PEFT包装器可能改变了原始模型的结构组织方式
输出层替换：在分类任务中，完全替换输出层比添加新层更合理，可以避免参数冗余和计算资源浪费

实践建议

在修改模型结构前，先完整打印模型结构，了解各层的准确路径
对于分类任务，确保只保留一个输出层
注意输出层的输入维度需要与前一层匹配
微调完成后，验证模型输出是否符合预期维度

这个案例展示了在微调LLM时需要深入理解模型结构的重要性，特别是在使用PEFT等复杂技术时，准确访问模型内部组件是关键。

LLMs-from-scratch

从零开始逐步指导开发者构建自己的大型语言模型（LLM），旨在提供详细的步骤和原理说明，帮助用户深入理解并实践LLM的开发过程。

项目地址：https://gitcode.com/GitHub_Trending/ll/LLMs-from-scratch

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

135

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

554

110