mergekit项目中Gemma2模型合并时的参数异常问题分析

2025-06-06 03:59:45作者：温玫谨Lighthearted

Tools for merging pretrained large language models.

项目地址：https://gitcode.com/gh_mirrors/me/mergekit

问题现象

在mergekit项目使用过程中，用户发现将两个Gemma2 9B模型进行合并时，生成的合并模型参数数量意外增加了1B（从9B变为10B）。类似现象也出现在Gemma2 2B模型的合并过程中。

问题根源

经过技术分析，发现该问题源于模型权重文件中存在重复的lm_head.weight张量。具体表现为：

在模型的安全张量文件(.safetensors)中，lm_head.weight张量被重复存储
该重复张量同时出现在模型索引文件(model.safetensors.index.json)中
这种设计实际上与Gemma2模型的架构特点有关 - 其语言模型头部(lm_head)的权重矩阵被转置后同时用作词嵌入(embedding)层的权重

解决方案

要解决此参数异常问题，需要执行以下步骤：

从安全张量文件中移除重复的lm_head.weight张量
同步更新模型索引文件，删除对应的条目

可以使用以下Python代码示例来清理安全张量文件：

from safetensors import safe_open
from safetensors.torch import save_file

input_file = "model-00001-of-00002.safetensors"
output_file = "fixed-model-00001-of-00002.safetensors"

tensors = {}
with safe_open(input_file, framework="pt", device="cpu") as f:
    for key in f.keys():
        if key != "lm_head.weight":
            tensors[key] = f.get_tensor(key)

save_file(tensors, output_file)

技术背景

这种现象并非Gemma2模型独有，类似的设计也出现在Command-R等其他模型中。这种权重共享的设计可以：

减少模型总体参数量
提高训练效率
保持词嵌入和输出层的一致性

但在模型合并过程中，如果不正确处理这种权重共享机制，就会导致参数计数异常的问题。

最佳实践建议

在合并使用权重共享机制的模型前，应仔细检查模型架构
合并后验证参数数量是否符合预期
使用专门的工具检查并清理重复张量
对于量化模型(exl2等)，同样需要注意此问题

通过正确处理模型权重文件中的重复张量，可以确保模型合并后的参数计数准确，避免不必要的资源消耗和潜在的性能问题。

Tools for merging pretrained large language models.

项目地址：https://gitcode.com/gh_mirrors/me/mergekit

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库