AIMET 2.7.0发布：PyTorch OmniQuant实验性支持与多项优化

2025-06-20 06:57:45作者：冯爽妲Honey

AIMET（AI Model Efficiency Toolkit）是由高通创新中心开发的开源工具库，专注于为深度学习模型提供量化、压缩和优化功能。该项目支持TensorFlow、PyTorch和ONNX等多种深度学习框架，帮助开发者在保持模型精度的同时提升推理效率。最新发布的2.7.0版本带来了一些值得关注的新特性和改进。

PyTorch OmniQuant实验性支持

2.7.0版本中最引人注目的新特性是对OmniQuant PTQ（Post-Training Quantization）技术的实验性支持。OmniQuant是一种基于论文《OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models》提出的后训练量化方法，特别针对大型语言模型设计。

该技术目前支持Llama和Qwen2模型家族，通过全方位的校准策略，能够在保持模型性能的同时实现更高效的量化。OmniQuant的核心思想是通过多方向的校准方法，包括权重、激活值等多个维度的联合优化，来减少量化带来的精度损失。

对于研究人员和工程师来说，这一特性为大型语言模型的部署提供了新的量化选择，特别是在资源受限的边缘设备上运行这些模型时，OmniQuant可能带来显著的性能提升。

ONNX相关改进

在ONNX支持方面，2.7.0版本进行了几项重要的优化：

依赖项精简：移除了DlCompression、DlEqualization、OpenCV和zlib等依赖项，使得库更加轻量化，减少了潜在的环境冲突问题。
编码加载增强：现在支持为缺失的量化器加载编码信息，提高了模型的兼容性和灵活性。同时，在加载编码时会正确设置张量量化器的位宽，确保量化参数的正确应用。

这些改进使得ONNX模型的量化过程更加稳定可靠，特别是在处理复杂模型或迁移已有量化模型时，开发者将获得更好的体验。

PyTorch相关优化

PyTorch方面除了新增的OmniQuant支持外，还包含以下改进：

依赖项精简：与ONNX类似，PyTorch部分也移除了不必要的依赖项，保持代码库的简洁性。
ONNX QDQ导出增强：现在能够正确导出数据移动操作的编码信息，使得量化感知训练（QAT）后的模型能够更完整地转换为ONNX的QDQ（Quantize-Dequantize）格式。
AdaScale实验性功能改进：
- 增加了对Conv2D层在块内更新的支持，扩展了该技术的应用范围
- API更新为接受迭代次数（num_iterations）而非训练轮次（num_epochs），提供了更灵活的训练控制