Microsoft Olive项目：将Mistral-7B模型导出为带KV缓存的ONNX格式实践指南

2025-07-07 07:49:23作者：昌雅子Ethen

概述

在大型语言模型(LLM)的实际部署中，KV缓存(Key-Value Cache)技术对于提高推理效率至关重要。本文将详细介绍如何使用Microsoft Olive项目将Mistral-7B模型成功导出为包含KV缓存支持的ONNX格式，并分享在此过程中遇到的技术挑战和解决方案。

KV缓存的重要性

KV缓存是Transformer架构中用于优化自回归生成过程的关键技术。在生成文本时，模型需要重复计算之前所有token的Key和Value矩阵，KV缓存通过存储这些中间计算结果，避免了重复计算，可以显著提高推理速度并降低计算资源消耗。

技术挑战

在将Mistral-7B模型导出为ONNX格式时，启用KV缓存选项会遇到以下典型问题：

张量尺寸不匹配：在尝试拼接缓存和当前计算的新KV值时，经常出现"Expected size 32 but got size 8"这类错误
动态轴处理复杂：KV缓存需要正确处理序列长度和批处理大小的动态变化
模型架构适配：不同版本的Transformers库对KV缓存的实现方式可能有差异

解决方案

方法一：使用OptimumConversion替代OnnxConversion

原始方案中使用OnnxConversion会导致KV缓存导出失败，改用OptimumConversion可以解决这一问题：

修改Olive配置文件，将OnnxConversion替换为OptimumConversion
确保配置中正确设置了KV缓存相关参数
验证导出模型的输入输出包含past_key_values相关节点

方法二：使用Olive的auto-opt命令（推荐）

最新版本的Olive提供了更简便的优化流程：

安装必要依赖：

pip install olive-ai transformers autoawq optimum peft bitsandbytes accelerate scipy onnxruntime-genai-cuda

使用auto-opt命令一键优化：

olive auto-opt \
    --model_name_or_path mistralai/Mistral-7B-v0.1 \
    --trust_remote_code \
    --output_path optimized-model \
    --device gpu \
    --provider CUDAExecutionProvider \
    --use_model_builder \
    --precision float16

模型推理示例

导出后的模型可以使用ONNX Runtime的Generate API进行推理，该API已内置KV缓存管理功能：

import onnxruntime_genai as og

model = og.Model("optimized-model/model")
tokenizer = og.Tokenizer(model)
tokenizer_stream = tokenizer.create_stream()

params = og.GeneratorParams(model)
params.set_search_options(max_length=100)
params.input_ids = tokenizer.encode("<s>[INST] 你好吗? [/INST]")

generator = og.Generator(model, params)
while not generator.is_done():
    generator.compute_logits()
    generator.generate_next_token()
    print(tokenizer_stream.decode(generator.get_next_tokens()[0]), end='', flush=True)