ONNXRuntime中BERT模型导出为ONNX格式输出NaN问题的分析与解决

2025-05-13 10:06:21作者：幸俭卉

microsoft/onnxruntime: 是一个用于运行各种机器学习模型的开源库。适合对机器学习和深度学习有兴趣的人，特别是在开发和部署机器学习模型时需要处理各种不同框架和算子的人。特点是支持多种机器学习框架和算子，包括 TensorFlow、PyTorch、Caffe 等，具有高性能和广泛的兼容性。

项目地址：https://gitcode.com/GitHub_Trending/on/onnxruntime

问题背景

在使用ONNXRuntime进行BERT模型推理时，开发者经常会遇到模型输出为NaN（Not a Number）的问题。这种情况通常发生在将Hugging Face Transformers中的BERT模型导出为ONNX格式后，使用C++接口进行推理时。本文将从技术角度深入分析这一问题的成因，并提供有效的解决方案。

问题现象

开发者报告了以下典型现象：

使用Python的transformers.onnx工具导出BERT模型到ONNX格式
使用ONNX Runtime的C++接口进行推理时，CPU上输出为"-nan"，GPU上输出为"nan"
该问题在ONNX Runtime的多个版本（1.11.1至1.17.1）中均存在

根本原因分析

经过技术分析，导致这一问题的可能原因包括：

输入张量顺序错误：在导出ONNX模型时，attention_mask可能与其他输入张量顺序错位。ONNX模型对输入顺序有严格要求，顺序不匹配会导致计算异常。
模型导出工具版本问题：早期版本的transformers.onnx工具可能存在导出逻辑缺陷，导致生成的ONNX模型结构不完整或参数异常。
数值稳定性问题：BERT模型中的softmax或layer normalization等操作在特定输入下可能导致数值不稳定，产生NaN。
执行提供程序兼容性问题：不同版本的ONNX Runtime对CUDA执行提供程序的支持可能存在差异。

解决方案

1. 验证ONNX模型结构

使用Netron工具可视化检查导出的ONNX模型：

确认输入节点名称和顺序是否符合预期
检查模型中的attention_mask输入位置是否正确
验证模型各层参数是否完整

2. 升级相关工具版本

建议采取以下升级措施：

将Hugging Face Transformers升级到最新稳定版
使用ONNX Runtime 1.21或更高版本
确保CUDA版本与ONNX Runtime兼容（建议CUDA 11.x）

3. 检查输入数据

确保推理时的输入数据：

数据类型与模型预期一致（通常是float32或int64）
数值范围合理（避免极端值导致数值不稳定）
张量形状与模型输入要求匹配

4. 使用官方验证脚本

ONNX Runtime提供了BERT模型的验证脚本，可以用来确认模型导出和推理的正确性：

python -m onnxruntime.transformers.models.bert.eval_squad

最佳实践建议

标准化导出流程：建立统一的模型导出流程，记录使用的工具版本和参数。
版本控制：对ONNX模型文件进行版本管理，记录导出环境和参数。
渐进式验证：从简单输入开始逐步验证模型，先确保小批量数据能正确推理。
性能监控：实现推理过程的数值监控，及时发现异常值。
跨平台测试：在CPU和GPU环境下分别测试模型，确保兼容性。

总结

BERT模型导出为ONNX格式后出现NaN输出是一个典型的技术问题，通常与模型导出过程或推理环境配置有关。通过升级工具版本、仔细验证模型结构和输入数据，大多数情况下可以解决这一问题。开发者应当建立规范的模型导出和验证流程，以确保深度学习模型在不同平台间的顺利迁移和部署。

随着ONNX生态的不断成熟，这类问题的发生频率正在降低，但保持工具链的更新和标准化操作流程仍然是预防问题的有效手段。

onnxruntime

项目地址：https://gitcode.com/GitHub_Trending/on/onnxruntime

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

336

178

ONNXRuntime中BERT模型导出为ONNX格式输出NaN问题的分析与解决

问题背景

问题现象

根本原因分析