InternLM项目中的模型格式转换问题解析与解决方案

2025-06-01 13:03:20作者：翟萌耘Ralph

问题背景

在InternLM项目中，用户在使用convert2hf.py脚本将训练好的模型转换为Hugging Face格式时遇到了参数形状不匹配的错误。具体表现为在执行转换命令时，系统报错显示多个层的权重参数形状与预期不符，例如"size mismatch for model.layers.24.self_attn.k_proj.weight: copying a param with shape torch.Size([256, 4096]) from checkpoint, the shape in current model is torch.Size([4096, 4096])"。

问题原因分析

经过深入分析，这个问题主要源于以下几个技术点：

分布式训练参数设置：用户使用了16张GPU进行分布式训练，配置中设置了tensor=16，这意味着模型采用了张量并行(tensor parallelism)策略。
转换脚本限制：项目主分支(main)的转换脚本仅支持单张量并行(tp_size=1)的情况，无法正确处理分布式训练保存的checkpoint。
权重分割机制：在分布式训练中，模型参数会被分割到不同GPU上，导致保存的checkpoint中参数形状与完整模型不同。例如，原本4096x4096的权重矩阵在16路并行下会被分割为16个256x4096的块。

解决方案演进

初步建议：建议用户切换到develop分支的转换脚本，该版本支持处理多张量并行和多流水线并行的情况。
进一步排查：发现develop分支的相关功能尚未完全合并，指导用户参考特定PR中的代码修改。
最终解决：应用正确的转换脚本后，成功完成了模型格式的转换，生成了符合Hugging Face格式的模型文件。

技术要点详解

分布式训练与模型保存

在大型语言模型训练中，分布式训练是常见做法。InternLM支持多种并行策略：

数据并行：将批次数据分割到不同设备
张量并行：将模型参数矩阵分割到不同设备
流水线并行：将模型层分割到不同设备

当使用张量并行时，每个设备只保存部分参数，因此在转换时需要特殊的合并处理。

转换脚本工作原理

正确的转换脚本需要：

识别原始checkpoint的并行配置
按照并行策略反向合并分割的参数
将合并后的完整参数转换为Hugging Face格式
处理特殊token和模型配置

参数形状不匹配的深层原因

以报错中的例子为例：

原始完整形状应为[4096, 4096]
16路并行下被分割为16个[256, 4096]的块
转换时需要将这些块正确地拼接回完整形状

最佳实践建议

训练前规划：如果确定后续需要转换为Hugging Face格式，建议在训练时考虑转换需求，选择合适的并行配置。
版本控制：关注项目更新，确保使用支持所需功能的分支或版本。
转换验证：转换完成后，应验证生成模型的质量和性能，确保没有参数丢失或错误。
文档参考：仔细阅读项目文档中关于模型转换的部分，了解各种参数和限制。

总结

InternLM项目中模型格式转换问题展示了分布式训练与模型部署之间的技术桥梁。理解并行训练策略对模型保存格式的影响，以及掌握正确的转换方法，对于大型语言模型的开发和应用至关重要。通过本案例的分析，我们不仅解决了具体的技术问题，也为类似场景下的模型转换工作提供了可借鉴的思路和方法。

InternLM

Official release of InternLM series (InternLM, InternLM2, InternLM2.5, InternLM3).

项目地址：https://gitcode.com/gh_mirrors/in/InternLM

登录后查看全文