MNN项目中NC4HW4输入张量的Slice操作数据布局问题分析

2025-05-22 06:16:54作者：申梦珏Efrain

问题背景

在深度学习推理框架MNN(2.9.3版本)中，当处理从Caffe框架转换而来的模型时，发现Slice(切片)操作对NC4HW4格式的输入张量处理存在数据布局问题。具体表现为当对通道维度进行切片时，如果切片边界不在4的倍数位置，会导致数据读取错误。

以一个简单的Caffe模型为例，该模型将1x8x6x6的张量沿着通道维度切分为4部分：1x1x6x6、1x4x6x6、1x2x6x6和1x1x6x6。在MNN中执行该操作时，第二个切片(1x4x6x6)的第4个通道数据出现错误。

NC4HW4是MNN中一种特殊的数据布局格式，它将通道维度以4为单位进行分组存储。对于8通道的输入张量，实际上会被存储为两个1x4x6x6的数据块。

当Slice操作需要跨数据块进行切片时(如从第一个数据块取3个通道，再从第二个数据块取1个通道)，当前的实现没有正确处理这种跨块访问的情况。具体问题出现在MNNTranspose32Bit函数中，该函数在进行数据拷贝时没有考虑C4数据分块的特殊性。

有趣的是，从ONNX转换的相同功能模型却能正常工作。调试发现ONNX转换后的模型内部使用NCHW布局，而非NC4HW4布局，这解释了为何ONNX模型不受此问题影响。

MNN开发团队确认这是一个区域融合(region fuse)相关的bug，并提供了两种解决方案：

精确修复方案：修改TensorUtils.cpp中的区域有效性检查逻辑，增加对目标区域是否完全包含在源区域内的判断。当切片操作需要跨数据块时，会返回false，避免错误的区域融合。
临时解决方案：完全禁用区域融合功能。虽然可以解决问题，但会导致性能下降约15%，特别是对那些原本不受影响的切片操作(切片通道数为4的倍数的情况)。