AutoAWQ项目v0.2.9版本发布：量化技术的演进与项目交接

2025-06-20 08:12:16作者：咎岭娴Homer

AutoAWQ是一个专注于神经网络模型权重量化的开源项目，它通过先进的AWQ（Activation-aware Weight Quantization）技术，能够在保持模型性能的同时显著减少模型大小和计算资源消耗。该项目自推出以来已支持超过7000个Huggingface模型，累计下载量超过200万次，成为深度学习社区中广受欢迎的模型优化工具。

在最新发布的v0.2.9版本中，AutoAWQ项目迎来了几个重要更新。首先，项目增加了对Qwen2.5-VL、Qwen3和Qwen2.5-Omni等新型模型架构的支持，扩展了其应用范围。其次，修复了多个关键问题，包括缓存维度处理、数据类型不匹配等影响稳定性的bug。特别值得注意的是，该版本改进了混合专家(MoE)模型中非激活专家的断言处理，提升了模型运行的可靠性。

然而，这个版本也标志着AutoAWQ项目的一个重要转折点。由于项目维护的挑战性，开发者宣布AutoAWQ将正式停止维护，并由vLLM项目接手后续开发工作。vLLM项目团队将继续推进AWQ技术的发展，新的实现将作为llm-compressor项目的一部分继续演进。对于Mac用户，MLX-LM项目也提供了AWQ技术的支持方案。

从技术角度看，AWQ量化方法相比传统方法具有显著优势。它通过分析激活分布来指导权重量化过程，能够在4-bit甚至更低的精度下保持模型性能。这种方法特别适合当前大型语言模型的部署需求，可以大幅降低推理时的显存占用和计算成本。AutoAWQ项目的技术积累将继续在新的实现中发挥作用，推动高效推理技术的发展。

对于现有用户，建议关注vLLM项目的llm-compressor实现，以获取持续的更新和支持。AutoAWQ的最后一个稳定版本已在Torch 2.6.0和Transformers 4.51.3环境下完成测试，用户可在此基础上继续使用。未来如遇兼容性问题，建议向相关上游项目报告。

AutoAWQ

AutoAWQ implements the AWQ algorithm for 4-bit quantization with a 2x speedup during inference.

项目地址：https://gitcode.com/gh_mirrors/au/AutoAWQ

登录后查看全文