Mergekit项目中处理Yi-34B模型合并时的Tokenizer问题分析

2025-06-06 18:24:02作者：宣海椒Queenly

Tools for merging pretrained large language models.

项目地址：https://gitcode.com/gh_mirrors/me/mergekit

在大型语言模型的应用实践中，模型合并是一项常见的技术操作。本文针对使用Mergekit工具合并Yi-34B系列模型时遇到的Tokenizer问题进行分析，并提供解决方案。

问题现象

当用户尝试使用Mergekit合并两个基于Yi-34B的模型时，虽然合并过程没有报错，但生成的合并模型存在Tokenizer异常。具体表现为：

无法将合并后的模型转换为GGUF格式
转换过程中出现Token ID超出范围的错误（存在64000和64001的Token ID，而最大允许值为63999）

问题根源

经过技术分析，这个问题源于模型合并过程中对Tokenizer的特殊处理不足。Yi系列模型使用特殊的Tokenizer配置，在合并时如果没有正确处理参数，会导致：

Tokenizer配置不完整
Token ID映射关系混乱
特殊Token处理异常

解决方案

通过实践验证，以下方法可以有效解决该问题：

启用embed_slerp参数：在合并配置中添加embed_slerp=true参数，确保嵌入层的平滑过渡
检查合并配置：确保合并配置中包含正确的Tokenizer来源设置（tokenizer_source: base）
验证Token范围：合并后检查Tokenizer的vocab_size设置是否合理

技术建议

对于Yi系列模型的合并操作，建议开发者：

始终明确指定Tokenizer来源
对于大型模型合并，优先考虑使用ties等先进合并方法
合并完成后立即验证模型的基本功能，包括Tokenizer的正常工作
注意检查特殊Token的处理情况，避免出现"<|unusedXXX|>"等异常Token

后续改进

Mergekit项目团队已经针对此类问题进行了代码修复，新版本中已经能够正确处理Yi系列模型的合并操作。开发者可以放心使用最新版本的Mergekit进行模型合并工作。

通过以上分析和解决方案，开发者可以更顺利地进行Yi系列大型语言模型的合并操作，充分发挥模型合并技术的优势。

Tools for merging pretrained large language models.

项目地址：https://gitcode.com/gh_mirrors/me/mergekit

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Oohos_react_native

React Native鸿蒙化仓库