TensorRTX项目中RetinaFace模型在TensorRT 8.6.1下的INT8量化问题分析

2025-05-30 19:59:24作者：霍妲思

问题背景

在深度学习模型部署过程中，TensorRT作为NVIDIA推出的高性能推理引擎，能够显著提升模型在GPU上的运行效率。TensorRTX项目提供了多种流行模型的TensorRT实现方案，其中包含RetinaFace人脸检测模型。然而，在使用较新版本的TensorRT 8.6.1时，用户遇到了INT8量化相关的问题。

现象描述

当用户尝试在TensorRT 8.6.1环境下对RetinaFace模型进行INT8量化校准时，遇到了两个关键错误：

在构建FP16引擎时，系统提示权重值存在异常：
- 检测到100个权重受到次正规FP16值影响
- 73个权重值小于FP16最小次正规值并被转换为最小次正规值
在进行INT8校准时，出现严重错误：
- 断言失败：scales.size() == 1
- 插件运行错误：pluginV2Runner.cpp::getInputHostScale::88中的内部错误

技术分析

FP16模式下的警告分析

FP16（半精度浮点）模式下出现的权重值警告表明原始模型中的某些权重值非常小，接近FP16能表示的最小值范围。这种情况通常不会影响模型运行，但可能导致数值精度损失，进而影响模型性能。这解释了用户观察到的"FP16引擎性能下降"现象。

INT8量化失败原因

INT8量化失败的核心错误Assertion scales.size() == 1 failed表明在量化过程中，某个层的缩放因子(scale)数量不符合预期。这通常与TensorRT版本对插件(plugin)的支持变化有关：

在TensorRT 8.6.1中，可能对插件的量化处理逻辑进行了修改，要求每个输入只有一个统一的缩放因子
RetinaFace实现中使用的自定义插件可能没有完全适配新版本的量化要求
插件的输入可能有多个需要量化的张量，但未能正确提供对应的缩放因子

解决方案建议

根据技术分析和项目维护者的反馈，建议采取以下解决方案：

版本回退方案：
- 使用TensorRT 8.4或更早版本进行INT8量化
- 在Ubuntu 18.04环境下运行，避免Ubuntu 22.04强制使用TensorRT 8.6.1的限制
模型优化方案：
- 使用BF16或FP16精度重新训练模型，避免极小权重值问题
- 将插件中的解码器部分改为CPU实现，减少对TensorRT插件的依赖
升级适配方案：
- 等待项目官方对TensorRT 8.6.1及更高版本的适配
- 考虑迁移到TensorRT 10并使用ONNX解析器，获得更好的兼容性