mergekit项目支持自定义MoE模型中激活的专家数量

2025-06-06 11:58:09作者：凤尚柏Louis

在模型合并工具mergekit的最新更新中，开发者为混合专家(MoE)模型结构添加了一个重要功能：用户现在可以自定义每次前向传播时激活的专家数量。这一改进使得mergekit在构建MoE模型时提供了更大的灵活性。

MoE模型基础

混合专家模型是一种特殊的神经网络架构，它将模型划分为多个"专家"子网络。与传统模型不同，MoE模型在每次前向传播时只激活部分专家，这种设计可以显著提高模型容量而不成比例增加计算成本。在标准实现中，通常会激活top-k个专家，其中k通常设置为2。

mergekit的改进

mergekit原本在合并MoE模型时固定激活2个专家。最新版本通过引入experts_per_token配置参数，允许用户指定每次前向传播激活的专家数量。这个参数是可选的，如果用户不指定，系统会默认使用2个激活专家，保持向后兼容性。

技术实现细节

在底层实现上，开发者修改了mixtral_moe.py文件，增加了对可变数量激活专家的支持。这一改动涉及路由算法的调整，确保模型能够正确选择指定数量的专家进行计算。路由机制仍然基于门控网络(gating network)的输出，选择得分最高的前k个专家。

使用建议

当需要构建更大容量的MoE模型时，可以考虑增加激活专家数量。但需要注意：

增加激活专家会线性增加计算成本
需要确保专家间的差异性，避免多个专家学习相似的特征
可能需要调整路由网络的容量以适应更多专家的选择

这一功能为研究人员提供了更多实验自由度，可以探索不同激活专家数量对模型性能的影响，是mergekit工具在MoE模型支持方面的重要进步。

mergekit

Tools for merging pretrained large language models.

项目地址：https://gitcode.com/gh_mirrors/me/mergekit

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781

mergekit项目支持自定义MoE模型中激活的专家数量

MoE模型基础

mergekit的改进

技术实现细节

使用建议

热门内容推荐

最新内容推荐

项目优选

mergekit项目支持自定义MoE模型中激活的专家数量

MoE模型基础

mergekit的改进

技术实现细节

使用建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选