PyTorch AO项目中Int4权重打包格式变更的技术解析

2025-07-05 17:59:43作者：裴麒琰

背景介绍

在PyTorch AO（算法优化）项目中，近期对CPU平台上的Int4量化实现进行了重要更新。这些变更主要涉及两个核心操作：_weight_int4pack_mm_for_cpu和_convert_weight_to_int4pack_for_cpu。这些改动影响了权重打包的格式和内存布局，需要开发者特别注意迁移方案。

技术变更内容

本次变更主要涉及以下几个方面：

操作符重命名：原操作符_weight_int4pack_mm和_convert_weight_to_int4pack被替换为带有_for_cpu后缀的版本，以明确区分平台实现。
权重打包格式变更：新的CPU实现采用了不同的权重打包格式，导致输出张量的形状发生变化。具体来说，权重张量从原来的二维布局(如[2048, 1024])变为四维布局(如[256, 16, 32, 4])。
输入类型调整：操作符的输入参数类型也进行了相应调整，以匹配新的内存布局要求。

迁移方案

对于需要从旧实现迁移到新实现的开发者，建议采用以下步骤：

操作符替换：将所有使用旧操作符的地方替换为新的_for_cpu版本。
权重格式转换：确保权重数据在传递给新操作符前已经按照新的四维布局进行组织。
参数调整：根据新的API要求，调整输入参数的类型和顺序。

实际应用示例

在量化线性层(WeightOnlyInt4Linear)的实现中，需要特别注意：

# 旧实现
weight_int4pack = torch.ops.aten._convert_weight_to_int4pack(q_uint8, inner_k_tiles)

# 新实现
weight_int4pack = torch.ops.aten._convert_weight_to_int4pack_for_cpu(q_uint8, inner_k_tiles)

同时，相应的矩阵乘法操作也需要更新：

# 旧实现
c = torch.ops.aten._weight_int4pack_mm(input, weight_int4pack, groupsize, scales_and_zeros)

# 新实现
c = torch.ops.aten._weight_int4pack_mm_for_cpu(input, weight_int4pack, groupsize, scales_and_zeros)