Llama-recipes项目中新增词汇表未正确保存的问题分析

2025-05-13 05:33:30作者：郁楠烈Hubert

Examples and recipes for Llama 2 model

项目地址：https://gitcode.com/gh_mirrors/ll/llama-recipes

问题背景

在Llama-recipes项目进行模型微调时，开发者发现当向tokenizer添加新词汇并调整模型嵌入层大小后，保存的模型未能正确保留这些修改。具体表现为：尽管在训练前调用了tokenizer.add_tokens()和model.resize_token_embeddings()，但最终保存的模型嵌入层维度仍保持原始大小。

技术细节分析

问题重现流程

在微调脚本中，开发者按照标准流程：
- 使用tokenizer.add_tokens()添加新词汇
- 调用model.resize_token_embeddings(len(tokenizer))调整嵌入层大小
训练完成后，通过FSDP到HuggingFace格式的转换工具保存模型
检查保存的模型时发现：
- model.get_input_embeddings().weight.shape[0]仍为原始词汇表大小
- 新添加的词汇对应的嵌入层参数未被保存

根本原因

问题出在权重转换环节。Llama-recipes项目中使用的convert_hf_weights_to_llama.py脚本在转换权重时，没有考虑词汇表扩展的情况。该脚本直接使用原始模型的配置参数，导致新添加的词汇对应的嵌入层参数在转换过程中丢失。

解决方案

临时解决方案

开发者可以手动修改转换脚本，在权重转换前确保：

正确加载扩展后的tokenizer
根据实际词汇表大小调整模型配置
确保嵌入层权重矩阵的维度与新词汇表大小匹配

长期改进建议

项目维护者应考虑以下改进：

在权重转换脚本中加入词汇表大小验证
自动检测并处理词汇表扩展情况
提供明确的文档说明如何处理自定义词汇表的情况

最佳实践建议

对于需要在Llama模型中添加自定义词汇的开发者，建议：

在训练前后都验证词汇表大小是否一致
检查转换后的模型是否保留了所有自定义词汇
考虑在转换后手动调整模型配置中的词汇表相关参数

这个问题凸显了在大型语言模型微调过程中，保持各组件(特别是tokenizer和模型架构)之间一致性的重要性。开发者需要特别注意模型配置与实际参数之间的匹配关系，特别是在进行词汇表扩展这类操作时。

Examples and recipes for Llama 2 model

项目地址：https://gitcode.com/gh_mirrors/ll/llama-recipes

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。