NVlabs/Sana项目中基于余弦相似度的深度剪枝技术解析

2025-06-16 13:34:21作者：侯霆垣

深度神经网络模型剪枝是模型压缩领域的重要技术手段。在NVlabs发布的Sana 1.5项目中，研究人员创新性地提出了基于块间特征余弦相似度的深度剪枝方法，本文将从技术原理到实践应用进行全面剖析。

核心算法原理

该方法的核心思想是通过计算相邻Transformer块输入输出特征的余弦相似度来评估块的重要性。具体算法流程如下：

特征采集阶段：在前向传播过程中，记录每个Transformer块的输入特征并存储在字典结构中
相似度计算：对相邻块的特征进行L2归一化处理后，计算它们的余弦相似度
重要性评分：将相似度转换为重要性分数，公式为：重要性 = 1 - |余弦相似度|

这种设计的理论基础是：如果某Transformer块对特征空间的变换作用显著（即输入输出特征差异大），则表明该块在模型中承担重要功能；反之则可能冗余。

关键技术实现

参考项目中的实现代码，我们可以观察到几个关键细节：

特征处理：所有特征统一转换为float32精度并转移到GPU计算
跨块采样：通过interval参数控制计算跨度，实现灵活的计算粒度调整
批量处理：对特征张量的最后一个维度进行整体相似度计算，再取均值作为最终评分

特别值得注意的是绝对值处理环节，这确保了无论是正向还是负向的强相关性都会被识别为低重要性，符合Transformer架构的特性。

多模态架构的适配挑战

在实际应用中发现，该方法在MMDiT等多模态架构中面临特殊挑战：

模态干扰问题：文本和视觉模态的特征激活模式存在显著差异
评分冲突：单一模态的低重要性可能被另一模态的高活跃度掩盖
评估困境：传统方法难以直接识别对双模态都非关键的冗余块

针对这些问题，技术社区提出了改进思路：

分模态独立计算重要性分数
采用加权融合策略平衡双模态影响
结合人工可视化分析进行验证性剪枝

工程实践建议

基于项目经验，我们总结出以下实践要点：

评估策略：对于关键模型，建议结合人工验证（如逐块跳过测试）
阈值选择：不宜采用固定阈值，而应考虑分数分布特征
渐进式剪枝：推荐采用迭代式剪枝-微调循环
架构适配：针对特殊架构需要调整特征采集点（如多头注意力前后）

该方法虽然源自Sana项目，但其核心思想可推广到各类基于Transformer的架构，为模型压缩领域提供了新的技术思路。随着大模型时代的到来，此类自动化剪枝技术将发挥越来越重要的作用。

Sana

SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

项目地址：https://gitcode.com/GitHub_Trending/sana/Sana

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

TypeScript

760

pytorch

Ascend Extension for PyTorch