MMDeploy项目中RTMO模型在TensorRT部署时的矩形输入问题解析

2025-06-27 13:43:02作者：范垣楠Rhoda

问题背景

在MMDeploy项目中将RTMO姿态估计模型部署到TensorRT时，开发者发现了一个有趣的现象：当使用正方形输入尺寸(1×3×640×640)时，TensorRT模型能够正常工作，输出结果与PyTorch模型基本一致；但当改为矩形输入尺寸(1×3×1280×640)时，虽然PyTorch模型仍能正常工作，TensorRT模型输出的关键点位置却出现了明显偏差。

现象表现

从实际运行结果对比图中可以观察到：

PyTorch模型在矩形输入下输出正常，关键点位置准确
TensorRT模型在相同输入下，虽然整体姿态相似，但关键点位置存在明显偏移

问题根源分析

经过深入排查，发现问题出在RTMO头部(rtmo_head)的重写器(rewriter)实现上。具体来说：

RTMO头部在部署模式下需要两个关键变量：self.flatten_priors和self.flatten_stride
这两个变量是在switch_to_deploy函数中预定义的（位于mmpose/models/heads/hybrid_heads/rtmo_head.py）
原实现中特征图生成时使用了固定的高宽比例，没有正确处理矩形输入的情况

解决方案

问题的核心在于特征图生成时的尺寸处理不当。在PyTorch张量中，尺寸顺序是(1,1,height,width)，而输入尺寸参数input_size的顺序是(width,height)。正确的修改方式应该是：

featuremaps.append(torch.rand(1, 1, input_size[1] // s, input_size[0] // s))

这一修改确保了：

正确解析输入尺寸的宽高顺序
特征图生成时保持正确的宽高比例
适应各种矩形输入尺寸的情况

技术启示

这个案例给我们几点重要启示：

尺寸顺序一致性：在计算机视觉和深度学习领域，不同框架和接口对尺寸顺序的定义可能不同，开发时需要特别注意
部署验证：模型在训练框架和部署框架中的行为可能存在差异，需要进行全面的验证测试
矩形输入支持：许多视觉模型最初设计时考虑正方形输入，但在实际应用中矩形输入更为常见，部署时需要确保支持

总结

通过分析RTMO模型在TensorRT部署时出现的矩形输入问题，我们不仅找到了具体解决方案，也加深了对模型部署过程中尺寸处理重要性的理解。这类问题的解决往往需要对训练框架和部署框架都有深入理解，才能准确定位问题根源。

对于开发者而言，在模型部署过程中，应当特别注意输入输出尺寸的匹配问题，特别是在处理非正方形输入时，需要全面验证模型在各个组件中的尺寸处理逻辑。

mmdeploy

OpenMMLab Model Deployment Framework

项目地址：https://gitcode.com/gh_mirrors/mm/mmdeploy

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.26 K

692