Torch-Pruning项目中的ViT模型剪枝问题分析与解决

2025-06-27 00:00:48作者：傅爽业Veleda

问题背景

在使用Torch-Pruning工具对Vision Transformer(ViT)模型进行剪枝时，开发者遇到了一个关键问题：当设置iterative_steps=5或更大的步数时，MetaPruner无法正常工作，会抛出RuntimeError: shape '[12, -1]' is invalid for input of size 704的错误。

问题分析

这个错误发生在对ViT模型的注意力头进行剪枝的过程中。具体来说：

原始ViT模型的注意力头数为12
在剪枝过程中，注意力头数被缩减到了11
但在后续的剪枝步骤中，代码仍然试图按照原始头数12进行维度操作
导致维度不匹配，最终抛出形状错误

问题的核心在于剪枝后的维度更新没有完全同步到所有相关操作中。特别是在dim_imp = imp.view(ch_groups, -1).mean(dim=0)这一行代码中，仍然使用了剪枝前的分组数(ch_groups=12)，而实际可用的维度已经变为11。

解决方案

Torch-Pruning项目的维护者已经在新版本(v1.4.2)中修复了这个问题。修复的关键点包括：

确保剪枝后的维度信息能够正确传递到所有相关操作
动态更新分组数(ch_groups)以匹配当前的实际维度
保持注意力头数、头维度和总维度的一致性

技术细节

对于Vision Transformer模型的剪枝，特别是注意力头的剪枝，需要特别注意以下几点：

多头注意力机制的维度一致性：在ViT中，查询(Q)、键(K)和值(V)矩阵的注意力头数必须保持一致
维度更新顺序：剪枝后需要按正确顺序更新num_attention_heads、attention_head_size和all_head_size三个关键参数
迭代剪枝的维度跟踪：在多步迭代剪枝中，必须持续跟踪维度的变化，确保每一步都使用最新的维度信息