TensorRT-Model-Optimizer 0.31.0版本发布：分布式检查点优化与量化功能升级

2025-07-08 09:00:07作者：龚格成

A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.

项目地址：https://gitcode.com/gh_mirrors/te/Model-Optimizer

TensorRT-Model-Optimizer（简称ModelOpt）是NVIDIA推出的一个专注于深度学习模型优化的开源工具库，它提供了从模型量化、剪枝到部署优化等一系列功能。最新发布的0.31.0版本带来了多项重要更新，特别是在分布式训练检查点和量化功能方面进行了显著改进。

分布式检查点格式的重大变更

0.31.0版本对分布式检查点（torch-dist）的存储格式进行了重要重构，这些变更主要影响使用NeMo和Megatron-LM框架的用户：

量化状态存储位置调整：TensorQuantizer的quantizer_state现在存储在QuantModule的extra_state中，而之前是保存在分片的modelopt_state中。这一变化使得量化状态的存储更加合理和统一。
数据类型和形状保留：分布式检查点中amax和pre_quant_scale的数据类型和形状现在会被完整保留。在之前的版本中，为了确保所有解码器层在检查点中具有统一结构，某些数据类型和形状会被修改。
异构格式支持：与megatron.core-0.13配合使用时，量化模型现在能够以异构格式存储和恢复分布式检查点，这为模型结构提供了更大的灵活性。

对于使用旧版本检查点的用户，需要先使用0.29版本加载旧格式的分布式检查点，将其转换为torch格式，然后再用0.31版本转换为新格式。

量化功能增强

本次更新对量化功能进行了多项改进：

auto_quantize API重构：现在接受量化配置字典列表作为量化选项，而之前仅支持预定义量化格式名称的字符串列表。这一变化为用户提供了更大的灵活性，可以轻松使用自定义量化格式。
量化格式选项调整：quantization_formats不再包含None（表示"不量化"）作为有效选项，因为auto_quantize内部始终会添加"不量化"作为默认选项。
模型导出配置重构：量化配置现在保存在config.json中，原有的hf_quant_config.json将被弃用。

新功能与模型支持

0.31.0版本引入了多项新功能：

TensorRT-LLM 0.19支持：LLM示例已升级至最新版TensorRT-LLM，提供了更好的性能和兼容性。
新增模型支持：llm_ptq示例现在支持Qwen3 MoE模型，扩展了可优化的模型范围。
高级量化算法支持：ModelOpt现在支持AWQ、SVDQuant和SmoothQuant等先进量化算法，特别针对CPU卸载的Huggingface模型进行了优化。
AutoCast工具：新增的AutoCast工具可以将ONNX模型转换为FP16或BF16格式，方便在不同硬件平台上部署。
低内存模式：llm_ptq示例新增了--low_memory_mode标志，支持使用压缩权重初始化HF模型，显著降低了PTQ和量化检查点导出的峰值内存需求。

兼容性调整

0.31.0版本停止了对Python 3.9的支持，建议用户升级到更高版本的Python环境以获得更好的性能和功能支持。

总结

TensorRT-Model-Optimizer 0.31.0版本在分布式训练检查点、量化功能和模型支持方面都做出了重要改进，特别是对大型语言模型的支持更加完善。这些更新不仅提高了工具的灵活性和易用性，也为模型优化和部署提供了更多可能性。对于深度学习工程师和研究人员来说，升级到新版本将能够获得更高效的模型优化体验。

Model-Optimizer

项目地址：https://gitcode.com/gh_mirrors/te/Model-Optimizer

登录后查看全文