MergeKit项目中的Phi模型保存问题分析与解决方案

2025-06-06 07:43:23作者：温玫谨Lighthearted

在模型合并工具MergeKit的使用过程中，部分用户遇到了保存Phi模型时的内存共享警告问题。本文将从技术角度分析该问题的成因，并提供多种可行的解决方案。

问题现象

当用户尝试使用Passthrough合并方式保存Phi模型时，系统会提示"Some tensors share memory"警告信息。该警告表明模型中的某些张量存在内存共享现象，这可能导致：

磁盘上出现重复的内存存储
重新加载模型时可能出现数据不一致

根本原因分析

经过技术排查，这个问题主要与以下两个因素相关：

张量内存共享机制：在模型合并过程中，某些操作可能导致不同张量共享同一块内存区域，这在计算时是高效的，但在序列化时会产生问题。
安全序列化限制：默认情况下MergeKit会尝试使用安全序列化方式保存模型，这种模式下对内存共享的检查更为严格。

解决方案

目前有三种可行的解决方法：

使用clone-tensors参数：

mergekit-yaml config.yaml output --clone-tensors

该参数会在保存前克隆共享内存的张量，确保每个张量都有独立的内存空间。

禁用安全序列化：

mergekit-yaml config.yaml output --no-safe-serialization

这种方法跳过安全检查，但可能在某些情况下导致加载问题。

使用save_model方法：开发者建议的替代方案是使用专门的save_model函数，该方法能正确处理内存共享情况。

最佳实践建议

对于生产环境使用，推荐采用以下工作流程：

首先尝试使用--clone-tensors参数
如果仍有问题，再考虑禁用安全序列化
对于关键任务，建议在保存后验证加载的模型一致性

技术背景补充

模型合并过程中的内存共享问题实际上反映了深度学习框架中的优化机制。现代框架如PyTorch会尽可能复用内存以提高性能，但在序列化时需要特别注意这种优化带来的副作用。MergeKit通过提供多种解决方案，既保持了计算效率，又确保了模型持久化的可靠性。

该问题的及时修复也体现了开源社区响应速度，开发者cg123在发现问题后迅速推送了改进版本，提供了更清晰的错误提示和更稳健的处理机制。

mergekit

Tools for merging pretrained large language models.

项目地址：https://gitcode.com/gh_mirrors/me/mergekit

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。