Deeplearning4j中BertWordPieceTokenizerFactory模型加载问题解决方案

2025-05-15 02:38:07作者：余洋婵Anita

问题背景

在使用Deeplearning4j框架进行自然语言处理时，许多开发者会遇到一个常见问题：当尝试加载已保存的Word2Vec模型时，系统会抛出"BertWordPieceTokenizerFactory does not have an empty constructor"的异常。这个问题主要出现在使用BertWordPieceTokenizerFactory作为分词器训练模型后，再次加载模型时发生的。

问题分析

这个问题的根源在于Deeplearning4j的模型序列化机制。当使用WordVectorSerializer保存Word2Vec模型时，系统会同时保存分词器工厂(TokenizerFactory)的配置信息。而在加载模型时，框架会尝试通过反射机制实例化保存的分词器工厂。

BertWordPieceTokenizerFactory设计上需要两个参数：

词汇表(NavigableMap<String, Integer>)
预处理配置(TokenPreProcess)

然而，框架默认的加载机制期望分词器工厂有一个无参构造函数，这就导致了加载失败的问题。

解决方案

自定义分词器工厂类

我们可以通过继承BertWordPieceTokenizerFactory并实现无参构造函数来解决这个问题。核心思路是：

创建一个静态变量来保存词汇表和预处理配置
提供静态加载方法初始化这些配置
在无参构造函数中调用父类构造函数时使用这些静态配置

public class MyBertWordPieceTokenizerFactory extends BertWordPieceTokenizerFactory {
    private static NavigableMap<String, Integer> vocab;
    private static TokenPreProcess preTokenizePreProcessor;
    private static boolean isLoaded = false;

    public MyBertWordPieceTokenizerFactory() {
        super(_vocab_(), preTokenizePreProcessor);
    }

    private static NavigableMap<String, Integer> _vocab_() {
        if (!isLoaded) {
            throw new IllegalStateException("Vocabulary and preprocessor must be loaded before instantiation.");
        }
        return vocab;
    }

    public static void load(NavigableMap<String, Integer> vocab, TokenPreProcess preTokenizePreProcessor) {
        if (vocab == null || preTokenizePreProcessor == null) {
            throw new IllegalArgumentException("Vocabulary and pre-tokenize preprocessor cannot be null.");
        }
        MyBertWordPieceTokenizerFactory.vocab = vocab;
        MyBertWordPieceTokenizerFactory.preTokenizePreProcessor = preTokenizePreProcessor;
        isLoaded = true;
    }
}

训练模型时的使用方式

在训练模型时，我们需要使用自定义的分词器工厂：

// 加载词汇表
NavigableMap<String, Integer> vocab = MyBertWordPieceTokenizerFactory.loadVocab(vocabFile, charset);
// 创建预处理
BertWordPiecePreProcessor preProcessor = new BertWordPiecePreProcessor(lowerCaseOnly, stripAccents, vocab);
// 初始化自定义分词器工厂
MyBertWordPieceTokenizerFactory.load(vocab, preProcessor);
// 创建分词器工厂实例
TokenizerFactory tokenizerFactory = new MyBertWordPieceTokenizerFactory();

加载模型时的注意事项

在加载已保存的模型时，必须确保使用与训练时完全相同的词汇表和预处理配置：

// 加载词汇表(必须与训练时相同)
NavigableMap<String, Integer> vocab = BertWordPieceTokenizerFactory.loadVocab(vocabFile, charset);
// 创建预处理(配置必须与训练时相同)
BertWordPiecePreProcessor preProcessor = new BertWordPiecePreProcessor(lowerCaseOnly, stripAccents, vocab);
// 初始化自定义分词器工厂
MyBertWordPieceTokenizerFactory.load(vocab, preProcessor);

// 加载模型
Word2Vec word2Vec = WordVectorSerializer.readWord2VecModel(new File(modelPath));