MiDaS模型转换至TFLite格式的技术实践与问题解决

2025-06-10 10:25:06作者：谭伦延

Code for robust monocular depth estimation described in "Ranftl et. al., Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer, TPAMI 2022"

项目地址：https://gitcode.com/gh_mirrors/mi/MiDaS

概述

本文将详细介绍如何将MiDaS深度估计模型从ONNX格式成功转换为TensorFlow Lite格式，并解决在移动端部署时遇到的常见问题。MiDaS是一个用于单目深度估计的深度学习模型，在计算机视觉领域有着广泛应用。

模型转换流程

初始问题发现

在最初的转换尝试中，开发者遇到了输入张量名称不匹配的问题。原始ONNX模型的输入张量名称为"0"，这在TensorFlow生态中会导致KeyError异常。这是ONNX与TensorFlow模型格式差异导致的常见问题。

解决方案：输入张量重命名

通过修改ONNX模型的输入张量名称，我们成功解决了这一问题。具体操作包括：

创建名称映射关系，将"0"映射为"arg_0"
遍历模型输入并创建新的ValueInfoProto对象
清除旧输入并添加新输入
更新所有节点中的输入引用

这一步骤确保了模型在TensorFlow环境中能够正确识别输入张量。

格式转换过程

完成输入张量修正后，我们进行了以下转换步骤：

使用onnx-tf工具将ONNX模型转换为TensorFlow SavedModel格式
使用TFLiteConverter将SavedModel转换为TFLite格式

在转换过程中，我们注意到有约36.44%的操作未被直接转换，主要是arith.constant操作。这些操作在后续处理中被TensorFlow Lite运行时正确处理。

关键问题：输入维度顺序差异

在移动端部署时，我们发现模型输出结果异常。经过深入分析，发现问题根源在于输入张量的维度顺序：

原始TensorFlow Lite模型期望输入格式为(1, 3, 256, 256)(NCHW)
而MiDaS官方模型使用(1, 256, 256, 3)(NHWC)格式

这种维度顺序的不匹配导致了移动端推理结果的异常。

最佳实践解决方案

经过多次尝试，我们确定了以下最佳实践：

使用专门的onnx2tf转换工具，它能自动处理维度顺序转换
该工具默认将ONNX的NCHW格式转换为TensorFlow的NHWC格式
确保输入数据预处理与模型期望的格式一致

技术要点总结

模型格式转换：不同框架间的模型转换需要考虑张量命名、维度顺序等细节差异
输入预处理：必须确保推理时的输入数据格式与模型训练时一致
工具选择：专用转换工具能自动处理许多兼容性问题
移动端适配：在移动设备上部署时，需特别注意内存布局和计算精度

实施建议

对于希望在移动端部署MiDaS模型的开发者，建议：

优先使用经过验证的转换工具链
在转换后立即进行推理测试验证结果正确性
注意记录模型的输入输出规格
考虑量化选项以优化移动端性能

通过遵循这些实践，开发者可以成功将MiDaS深度估计模型部署到移动设备上，实现高效的实时深度估计应用。

MiDaS

Code for robust monocular depth estimation described in "Ranftl et. al., Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer, TPAMI 2022"

项目地址：https://gitcode.com/gh_mirrors/mi/MiDaS

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。

rainbond

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理