XTuner微调后模型导出ONNX格式的问题分析与解决方案

2025-06-13 18:33:54作者：劳婵绚Shirley

问题背景

在使用XTuner框架对ChatGLM3模型进行微调后，用户发现无法将微调后的模型成功导出为ONNX格式。具体表现为导出过程中出现"aten::scaled_dot_product_attention"错误。相比之下，使用官方微调方法得到的模型则可以正常导出ONNX格式。

技术分析

模型格式差异

XTuner微调后生成的模型文件与原始未微调模型存在一些差异：

文件结构不同：XTuner微调后生成的文件数量较多，包含多个配置文件
保存格式：XTuner默认输出.bin格式，也可选择输出.safetensors格式
模型架构文件：可能包含微调特有的配置参数

ONNX导出失败原因

经过深入分析，导致ONNX导出失败的主要原因可能有：

模型架构文件(configuration_chatglm.py)在微调过程中被修改
注意力机制实现方式与ONNX导出工具不兼容
模型权重合并方式影响了某些特殊操作的导出

解决方案

方法一：替换模型架构文件

将微调后的modeling_chatglm.py和configuration_chatglm.py替换为原始未微调版本，这可以确保模型架构与ONNX导出工具兼容。

方法二：使用合并脚本处理

对于XTuner微调生成的adapter文件，可以使用专门的合并脚本进行处理
合并后的模型结构与原始模型更加接近，有利于ONNX导出
合并过程中需要注意权重参数的对应关系

方法三：调整导出工具配置

检查ONNX导出工具是否支持特定版本的注意力机制实现
尝试使用不同版本的导出工具或添加特殊处理规则
对于不支持的算子(scaled_dot_product_attention)，可以考虑自定义实现

最佳实践建议

在微调前明确后续模型的使用场景，如需导出ONNX，应提前规划好微调方案
保持模型架构文件的一致性，避免微调过程中修改关键架构参数
使用标准化的模型合并流程，确保输出模型格式符合预期
对于特殊算子，可考虑在导出前进行算子替换或重写

总结

XTuner作为高效的微调框架，其生成的模型在转换为ONNX格式时可能会遇到兼容性问题。通过替换模型架构文件、使用标准化合并流程或调整导出工具配置，可以有效解决这些问题。在实际应用中，建议开发者根据具体需求选择合适的解决方案，并注意保持模型架构的兼容性。

xtuner

A toolkit for efficiently fine-tuning LLM (InternLM, Llama, Baichuan, QWen, ChatGLM)

项目地址：https://gitcode.com/GitHub_Trending/xt/xtuner

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统