ONNX项目中bfloat16张量转换问题的分析与解决

2025-05-12 20:04:51作者：魏献源Searcher

Open standard for machine learning interoperability

项目地址：https://gitcode.com/gh_mirrors/onn/onnx

问题背景

在深度学习领域，ONNX(开放神经网络交换)格式已成为模型转换和部署的重要标准。近期，在ONNX项目中发现了一个关于bfloat16数据类型转换的问题，当将bfloat16张量转换为NumPy数组时，原始数据(raw_data)的内容没有被正确加载。

问题现象

当使用ONNX的Python接口处理包含bfloat16张量的模型时，发现以下异常现象：

在ONNX 1.16.1版本中：
- onnx.numpy_helper.to_array(t)能正确转换
- op_run.to_array_extended(t)返回错误结果
- 直接使用np.frombuffer解析raw_data能得到正确结果
在ONNX 1.17.0版本中：
- onnx.numpy_helper.to_array(t)和op_run.to_array_extended(t)都返回错误结果
- 错误结果表现为部分数据为0或固定值16256
- 直接解析raw_data仍能得到正确结果

技术分析

bfloat16(Brain Floating Point 16)是一种16位浮点数格式，相比传统float16，它保留了与float32相同的指数位数(8位)，但减少了尾数位数(7位)。这种设计使其特别适合深度学习应用，因为它能提供更大的数值范围，同时减少内存占用。

在ONNX的实现中，bfloat16张量的处理存在以下问题：

内存初始化问题：转换函数可能没有正确处理bfloat16的内存布局，导致部分数据未被正确初始化
版本兼容性问题：从1.16.1到1.17.0的升级过程中，相关转换逻辑发生了变化，但未能正确处理所有情况
数据解析路径不一致：直接解析raw_data的路径与通过ONNX接口转换的路径存在差异

解决方案

该问题已在ONNX的最新weekly版本中得到修复。修复后的版本在所有转换路径上都能得到一致且正确的结果：

onnx.numpy_helper.to_array(t)
op_run.to_array_extended(t)
直接使用np.frombuffer解析raw_data

三种方法现在都能正确返回：

[[16000 16128]
 [16256 16384]]

对开发者的建议

当处理bfloat16数据类型时，建议使用ONNX的最新版本
如果遇到类似的数据转换问题，可以尝试以下调试方法：
- 检查原始数据的二进制表示
- 对比不同转换路径的结果
- 验证数据的内存布局是否符合预期
在模型导出和导入过程中，注意检查数据类型的兼容性

总结

bfloat16作为一种新兴的浮点数格式，在深度学习领域越来越重要。ONNX作为模型交换的标准格式，对其支持至关重要。此次问题的发现和解决，体现了开源社区在维护深度学习基础设施方面的重要性。开发者在使用相关技术时，应保持对底层数据处理的敏感性，确保模型转换过程中的数据完整性。

Open standard for machine learning interoperability

项目地址：https://gitcode.com/gh_mirrors/onn/onnx

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。