TensorRT中使用Polygraphy工具时避免标记所有输出的注意事项

2025-05-21 01:44:20作者：农烁颖Land

NVIDIA® TensorRT™ is an SDK for high-performance deep learning inference on NVIDIA GPUs. This repository contains the open source components of TensorRT.

项目地址：https://gitcode.com/GitHub_Trending/tens/TensorRT

在使用NVIDIA TensorRT进行模型优化和推理时，Polygraphy是一个非常实用的工具，可以帮助开发者验证模型转换的正确性。然而，在使用过程中需要注意一些关键参数的使用方式，否则可能会导致模型构建失败。

问题现象

当用户尝试使用以下命令运行Polygraphy工具时遇到了错误：

polygraphy run model.onnx --trt --validate --trt-outputs mark all --save-results=trt_out.pkl

系统报错显示：

[E] 2: [myelinBuilderUtils.cpp::operator()::752] Error Code 2: Internal Error ([ShapeHostToDeviceCopy 0] requires bool or uint8 I/O but node can not be handled by Myelin. Operation is not supported.)
[!] Invalid Engine. Please ensure the engine was built correctly

问题分析

这个错误的核心原因是使用了--trt-outputs mark all参数。这个参数会强制TensorRT将所有层的输出都标记为网络输出，这会带来两个主要问题：

破坏图优化：TensorRT的一个重要特性是能够对计算图进行各种优化和融合操作。当标记所有层为输出时，这些优化将无法进行，因为优化通常需要合并或重组计算图中的节点。
不支持的层类型：某些层（如ShapeHostToDeviceCopy）需要特定的数据类型支持（bool或uint8），当这些层被强制标记为输出时，可能会遇到Myelin引擎不支持的情况。

解决方案

正确的做法是：

避免使用mark all：除非有特殊需求，否则不应该标记所有层为输出。这会严重影响TensorRT的优化能力。
选择性标记输出：如果确实需要检查某些中间层的输出，应该明确指定这些层的名称，而不是使用"all"。
使用默认行为：大多数情况下，只需让TensorRT自动处理输出标记，这样能获得最佳性能。

最佳实践建议

性能优先：让TensorRT自由地进行图优化通常会带来更好的性能表现。
调试策略：如果需要进行调试，可以考虑：
- 使用TensorRT的逐层分析工具
- 分阶段构建网络
- 使用更精细的输出标记策略
版本兼容性：确保使用的TensorRT版本(如8.6.1.6)与CUDA(11.6)、cuDNN(8.6.0)等组件版本兼容。

通过遵循这些实践，可以避免类似的构建错误，同时充分发挥TensorRT的优化潜力，获得最佳推理性能。

NVIDIA® TensorRT™ is an SDK for high-performance deep learning inference on NVIDIA GPUs. This repository contains the open source components of TensorRT.

项目地址：https://gitcode.com/GitHub_Trending/tens/TensorRT

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。