QwenLM/Qwen项目中attention_mask掩码问题的技术解析

2025-05-12 15:25:51作者：咎竹峻Karen

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen

问题背景

在QwenLM/Qwen项目的训练代码中，modeling_qwen.py文件内存在一个关于attention_mask掩码处理的潜在问题。这个问题涉及到PyTorch中masked_fill方法的使用方式，可能会影响模型在训练时的注意力机制实现。

技术细节

在Transformer架构中，attention_mask用于控制模型在自注意力计算时能够"看到"哪些位置的信息。对于自回归语言模型来说，通常需要使用下三角矩阵形式的掩码，确保当前位置只能关注到之前的位置信息。

在QwenLM/Qwen项目的原始实现中，代码使用了以下方式处理attention_mask：

attention_mask.masked_fill(~causal_mask, torch.finfo(query.dtype).min)

这里存在一个关键问题：PyTorch中的masked_fill方法不会就地(in-place)修改张量，而是返回一个新的张量。这意味着上述操作实际上没有对原始attention_mask进行任何修改。

正确实现方式

有两种正确的实现方式：

使用masked_fill_方法（注意下划线），这是PyTorch提供的就地操作方法：

attention_mask.masked_fill_(~causal_mask, torch.finfo(query.dtype).min)

或者将结果重新赋值给变量：

attention_mask = attention_mask.masked_fill(~causal_mask, torch.finfo(query.dtype).min)

问题影响

当flash-attention未被启用时，这个错误会导致：

注意力掩码不会形成正确的下三角矩阵结构
模型在训练时可能会"看到"未来的信息，违反自回归语言模型的基本原则
可能导致模型训练效果不佳或收敛困难

解决方案验证

根据后续的更新记录，modelscope上的新版本已经修正了这个问题，采用了第二种实现方式：

attention_mask = attention_mask.masked_fill(~causal_mask, torch.finfo(query.dtype).min)

这种实现方式更加明确，通过显式的赋值操作确保了attention_mask的正确更新。

总结

这个案例提醒我们在使用PyTorch的张量操作方法时需要注意：

区分就地操作和非就地操作方法（带下划线和不带下划线）
对于关键的功能实现，如注意力掩码，需要进行仔细的验证
在模型训练前，建议检查中间结果的形状和值是否符合预期

对于深度学习框架的使用者来说，理解这些底层操作的细节差异对于确保模型正确实现至关重要。

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。