RTranslator项目中的ONNX模型推理与Python实现详解

2025-05-29 10:12:31作者：虞亚竹Luna

前言

在自然语言处理领域，将大型语言模型部署到移动设备上一直是一个挑战。RTranslator项目通过使用ONNX格式和ONNX Runtime，成功实现了在移动设备上运行轻量级翻译模型。本文将深入探讨该项目中的Python实现方案，帮助开发者理解其工作原理。

ONNX模型加载基础

在Python中使用ONNX模型进行推理，首先需要加载模型并创建推理会话：

import onnxruntime as ort

# 创建ONNX Runtime推理会话
providers = ['CPUExecutionProvider']  # 指定使用CPU执行
encoder_session = ort.InferenceSession("encoder_model.onnx", providers=providers)

完整翻译流程解析

1. 初始化阶段

翻译流程始于Tokenizer的初始化，它负责将文本转换为模型可理解的token ID序列：

from transformers import NllbTokenizer

# 初始化tokenizer，指定源语言和目标语言
tokenizer = NllbTokenizer.from_pretrained("facebook/nllb-200-distilled-600M", 
                                        src_lang="eng_Latn", 
                                        tgt_lang="fra_Latn")

2. 编码器处理

编码器负责将输入文本转换为隐藏状态表示：

# 文本token化
input_encoder = tokenizer("Hello world", return_tensors='pt')

# 准备编码器输入
encoder_input = {
    "input_ids": input_encoder.input_ids.numpy(),
    "attention_mask": input_encoder.attention_mask.numpy(),
    "embed_matrix": embed_output[0]  # 来自嵌入层的输出
}

# 执行编码器推理
encoder_output = encoder_session.run(["last_hidden_state"], encoder_input)

3. 解码器初始化

解码器需要特殊的初始化过程来准备键值缓存：

# 初始化解码器缓存
initializer_output = initializer_session.run(
    ["present.0.encoder.key", "present.0.encoder.value", ...],  # 所有层的键值
    {"encoder_hidden_states": encoder_output[0]}
)

4. 自回归解码过程

解码过程采用自回归方式，逐个生成token：

# 初始解码器输入（开始token）
decoder_input_ids = torch.tensor([[2]], dtype=torch.int64).numpy()

while True:
    # 准备解码器输入
    decoder_input = {
        "input_ids": decoder_input_ids,
        "embed_matrix": embed_output[0],
        "encoder_attention_mask": encoder_attention_mask,
        # 添加所有层的过去键值
        "past_key_values.0.decoder.key": past_keys[0],
        "past_key_values.0.decoder.value": past_values[0],
        ...
    }
    
    # 执行解码器推理
    decoder_output = decoder_session.run(output_names, decoder_input)
    
    # 通过语言模型头获取预测结果
    logits = lm_head_session.run(["logits"], 
                               {"pre_logits": decoder_output[0]})
    
    # 选择概率最高的token
    next_token = logits[0][0][0].argmax()
    
    # 终止条件检查
    if next_token == 2:  # 结束token
        break