LLaMA-Factory项目中如何扩展Tokenizer词汇表

2025-05-02 17:05:13作者：彭桢灵Jeremy

在LLaMA-Factory项目中，用户经常会遇到需要扩展模型词汇表的需求。本文将详细介绍如何为LLaMA-2模型添加新的token，并解释相关技术原理。

为什么需要扩展词汇表

在实际应用中，我们经常需要模型识别和处理一些特殊词汇或领域专有名词。这些词汇可能不在原始模型的词汇表中，导致模型无法正确理解和处理。通过扩展词汇表，我们可以让模型更好地适应特定领域的任务。

使用Transformers库扩展词汇表

LLaMA-Factory基于Hugging Face的Transformers库构建，因此我们可以直接使用Transformers提供的API来扩展词汇表。以下是具体操作步骤：

首先加载原始tokenizer：

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")

添加新token：

tokenizer.add_tokens(["X1", "X2", "X3"])

保存修改后的tokenizer：

tokenizer.save_pretrained("other_dir")

在LLaMA-Factory中的集成

虽然LLaMA-Factory提供了可视化界面和YAML配置文件两种训练方式，但直接修改词汇表的操作需要在Python环境中完成。这是因为：

词汇表修改是一个预处理步骤，应该在训练前完成
修改后的tokenizer需要保存到指定目录
后续训练可以指向这个修改后的tokenizer目录

技术原理深入

当调用add_tokens方法时，Transformers库会：

检查新token是否已存在于词汇表中
为每个新token分配一个唯一的ID
扩展模型的嵌入层(embedding layer)以容纳新token
随机初始化新token的嵌入向量

需要注意的是，添加新token后，模型的输入输出维度会发生变化，因此需要重新训练或微调模型，让模型学习这些新token的语义表示。

最佳实践建议

在添加大量新token时，建议先进行词汇频率分析，只添加高频词汇
添加token后，应该进行适当的微调训练
可以结合领域语料进行持续预训练，帮助模型更好地理解新token
记录所有添加的token，便于后续维护和版本控制

通过以上方法，用户可以有效地扩展LLaMA-2模型的词汇表，使其更好地适应特定应用场景的需求。

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库