MNN项目中输入数据布局问题的分析与解决

2025-05-22 13:40:40作者：瞿蔚英Wynne

问题背景

在使用阿里巴巴开源的MNN推理框架时，开发者经常会遇到模型推理结果与预期不符的情况。其中一个常见原因就是输入数据的布局处理不当。本文将以一个实际案例为基础，深入分析MNN框架中数据布局的重要性及正确处理方法。

典型错误案例

在MNN项目中，开发者尝试将一个256x256的RGB图像输入到模型中，但发现输出结果与预期不符。原始代码中存在一个典型的数据布局处理错误：

for (int i = 0; i < 256; ++i) {
    cv::Vec3f* ptr = rect_img.ptr<cv::Vec3f>(i);
    for (int j=0;j<256;j++){
        input_tensor_->host<float>()[i*j] = ptr[j][0];
        input_tensor_->host<float>()[i*j+1] = ptr[j][1];
        input_tensor_->host<float>()[i*j+2] = ptr[j][2];
    }
}

这段代码的问题在于错误地计算了内存偏移量，导致数据在内存中的排列不符合模型预期。

数据布局基础知识

在深度学习推理框架中，输入数据的布局主要有两种形式：

NHWC布局：Batch-Height-Width-Channel，即批次-高度-宽度-通道
NCHW布局：Batch-Channel-Height-Width，即批次-通道-高度-宽度

ONNX模型通常使用NCHW布局，而OpenCV的Mat对象默认是HWC布局。MNN框架在转换ONNX模型时，默认会进行布局转换，但可以通过--keepInputFormat=1参数保持原始布局。

正确的数据填充方法

对于NHWC布局

如果模型使用NHWC布局，正确的数据填充方式应该是：

for (int i = 0; i < 256; ++i) {
    cv::Vec3f* ptr = rect_img.ptr<cv::Vec3f>(i);
    for (int j=0; j<256; j++){
        input_tensor_->host<float>()[(i*256 + j)*3 + 0] = ptr[j][0];
        input_tensor_->host<float>()[(i*256 + j)*3 + 1] = ptr[j][1];
        input_tensor_->host<float>()[(i*256 + j)*3 + 2] = ptr[j][2];
    }
}

对于NCHW布局

如果模型保持ONNX的NCHW布局，正确的填充方式应为：

for (int i = 0; i < 256; ++i) {
    cv::Vec3f* ptr = rect_img.ptr<cv::Vec3f>(i);
    for (int j=0; j<256; j++){
        input_tensor_->host<float>()[i*256 + j] = ptr[j][0];  // R通道
        input_tensor_->host<float>()[i*256 + j + 256*256] = ptr[j][1];  // G通道
        input_tensor_->host<float>()[i*256 + j + 2*256*256] = ptr[j][2];  // B通道
    }
}