mergekit项目对需要输入数据的模型合并方法的支持规划

2025-06-06 15:32:07作者：魏侃纯Zoe

mergekit是一个专注于模型合并的开源工具库，目前正在规划对需要输入数据的模型合并方法的支持。这类方法包括RegMean和Fisher合并等技术，它们在进行模型参数融合时需要访问部分训练数据来计算必要的统计量。

技术背景

传统模型合并方法如简单的参数平均可以在不需要原始训练数据的情况下完成。然而，一些更先进的合并算法如RegMean和Fisher合并需要：

RegMean：需要计算模型在部分数据上的激活统计量，以确定最优的合并权重
Fisher合并：需要计算Fisher信息矩阵，这需要模型在数据上的梯度信息

这些方法通常能产生比简单平均更好的合并效果，但代价是需要额外的计算和数据访问。

mergekit的设计考虑

项目维护者提出了一个优雅的解决方案架构：

分离计算流程：将需要数据访问的计算部分与核心合并流程解耦
测量脚本：开发独立的脚本专门负责计算RegMean权重、Fisher信息等指标
数据重用：鼓励模型作者发布这些预计算指标，使下游用户无需重复计算

这种设计有多个优势：

保持核心合并流程的简洁性
避免在每次合并时重复昂贵的计算
保护数据隐私（原始数据只需在计算指标时使用一次）
支持指标共享和重用

实施计划

该项目计划在未来几周内实现这一功能。技术实现可能包括：

定义标准化的指标存储格式
开发通用的指标计算框架
扩展合并算法以支持这些预计算指标
提供示例和文档说明工作流程

这种模块化设计也使得社区贡献更加容易，开发者可以专注于实现特定的指标计算方法，而不必担心与核心合并流程的集成问题。

对于希望使用这些高级合并技术的用户，建议关注项目的更新，或者考虑参与贡献相关功能的开发。这种分离架构的设计理念不仅适用于当前讨论的方法，也为未来可能出现的其他需要数据支持的合并算法提供了可扩展的框架。

mergekit

Tools for merging pretrained large language models.

项目地址：https://gitcode.com/gh_mirrors/me/mergekit

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

425

376

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.65 K

969