【亲测免费】深度学习模型压缩利器：AWQ 安装与配置完全指南

2026-01-20 02:01:27作者：史锋燃Gardner

一、项目基础介绍与编程语言

AWQ (Activation-aware Weight Quantization) 是一个荣获 MLsys 2024 最佳论文奖的开源项目，它专为大语言模型（LLMs）设计，旨在通过高效的激活感知权重量化实现模型的压缩与加速。此项目采用Python为主要编程语言，结合CUDA进行GPU优化，支持低比特数（如INT3/4）的重量量化，以提升推理速度并减少内存消耗。

二、关键技术与框架

AWQ的核心亮点在于其创新的量化策略，能够依据激活值来调整量化过程，确保在降低模型存储和计算需求的同时，维持高精度的推理效果。它兼容多种深度学习模型框架，特别是PyTorch，并且通过自定义CUDA内核实现了高效运行。此外，AWQ还集成了TinyChat作为边缘设备上LLM应用的轻量级聊天机器人接口，展示了其在实际部署中的灵活性和效能。

三、安装与配置详细步骤

系统要求：

确保你的系统安装了Python 3.10或更高版本，并且已安装Git和conda环境。

步骤1：克隆项目源代码

首先，打开终端或命令提示符，然后克隆AWQ的GitHub仓库到本地。

git clone https://github.com/mit-han-lab/llm-awq.git
cd llm-awq

步骤2：创建并激活conda环境

建立一个名为awq的新虚拟环境，确保使用正确的Python版本。

conda create -n awq python=3.10 -y
conda activate awq

步骤3：更新pip并安装依赖

升级pip以确保可以安装最新的依赖包。

pip install --upgrade pip

接下来，安装AWQ及其依赖。注意，对于某些特定平台或用途，可能需要手动调整配置，比如PyTorch版本和预编译库的安装。

pip install -e .

额外配置（对于边缘设备）

如果你计划在如Jetson Orin这样的边缘设备上部署，还需额外操作：

修改pyproject.toml文件中相关的transformers版本约束。
手动下载并安装适合设备的PyTorch版本。
对于AWQ的GPU内核优化，执行以下命令：

cd awq/kernels
python setup.py install

步骤4：获取预训练模型（可选）

为了快速测试，可以从Hugging Face的模型库或提供的AWQ Model Zoo下载预训练的量化模型。

开始使用

现在，你可以参考项目的examples目录下的说明文档开始试验模型量化和推理流程。

以上就是AWQ项目从零开始的安装与配置全过程。记住，在实际操作中仔细阅读每个步骤中可能存在的特殊指示，特别是在处理环境变量和特定硬件优化时。祝你在高效模型压缩与加速的道路上探索愉快！

llm-awq

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

项目地址：https://gitcode.com/gh_mirrors/ll/llm-awq

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解