TransformerLens项目中Gemma-2-2b-it模型输出差异分析

2025-07-04 10:47:24作者：魏侃纯Zoe

问题背景

在TransformerLens项目中，研究人员发现使用Gemma-2-2b-it模型时，TransformerLens库与HuggingFace实现产生的输出logits存在显著差异。这种差异在模型推理过程中逐渐累积，最终导致输出结果不一致。

通过对比实验发现，最后一层输出的logits平均差异达到0.1159，而HuggingFace实现的logits范围在-19.6916到16.0789之间。这种差异远超出了可接受的误差范围，表明实现上存在实质性差异。

经过深入分析，问题主要源于以下几个方面：

注意力缩放因子不一致：TransformerLens默认使用的注意力缩放因子约为14.96，而HuggingFace实现使用16。这个差异在多层注意力机制中会累积放大。
注意力分数软上限处理：HuggingFace实现在推理时禁用了注意力logits的软上限处理，而TransformerLens默认启用了这一功能。
位置编码实现差异：在类似模型(如Llama3.2-1B)中，还发现了位置编码中cos和sin向量计算不一致的问题。

针对上述问题，可以采取以下修正措施：

for block in tl_model.blocks:
    block.attn.attn_scale = 16
    block.attn.cfg.attn_scores_soft_cap = 0

经过上述修正后，模型输出差异显著降低：

这一案例揭示了深度学习模型实现中的几个重要问题：

这些发现对于确保模型复现性和跨框架一致性具有重要参考价值，特别是在需要精确比较模型行为的场景中。

登录后查看全文