Olive项目中使用模型构建器时遇到的动态形状问题解析

2025-07-07 20:03:29作者：虞亚竹Luna

问题背景

在Olive项目(微软开源的模型优化工具)中，用户尝试使用--use_model_builder参数进行自动优化时遇到了程序崩溃问题。这个问题特别出现在Windows系统下，当用户尝试对meta-llama/Llama-2-7b-chat-hf模型进行优化时发生。

错误现象分析

执行命令后，系统抛出了一个关键错误：AttributeError: 'Namespace' object has no attribute 'input_model'。这个错误表明在代码执行过程中，程序试图访问一个不存在的属性input_model，而实际上可能应该访问的是input_cols属性。

深入分析错误堆栈可以发现，问题发生在自动优化流程中获取运行配置的阶段。具体来说，当程序尝试构建passes配置时，错误地假设了命名空间对象中存在input_model属性，而实际上这个假设并不成立。

技术原理探究

这个问题涉及到Olive框架中几个关键概念：

模型构建器(Model Builder)：这是Olive提供的一个功能，用于构建和优化模型的计算图。它可以帮助用户更方便地定义模型结构并进行各种优化。
动态形状处理：在深度学习模型中，特别是像Llama这样的大型语言模型，输入的形状(如batch size和sequence length)通常是动态的。这使得模型可以处理不同长度的输入序列。
执行提供者(Execution Provider)：在ONNX Runtime中，执行提供者负责在特定硬件上执行模型。DmlExecutionProvider是针对DirectML硬件的执行提供者。

解决方案与修复

项目维护者已经通过PR #1455修复了这个问题。修复的核心内容包括：

修正了属性访问逻辑，确保程序能够正确识别输入模型的相关配置。
澄清了关于DmlExecutionProvider的一个误解：虽然某些情况下可能需要固定形状参数，但对于LLM模型来说，保持动态形状是更合适的选择，因为这样可以同时支持提示处理(prompt processing)和令牌生成(token generation)两种场景。