Qwen3项目中Qwen2.5-0.5B模型训练时的张量维度不匹配问题解析

2025-05-11 06:54:42作者：邓越浪Henry

问题背景

在使用Qwen3项目中的Qwen2.5-0.5B-Instruct模型进行GRPO训练时，开发者遇到了一个典型的张量维度不匹配错误。该错误发生在模型前向传播过程中，具体是在应用旋转位置编码(rotary positional embedding)时出现的。

错误信息显示，在apply_rotary_pos_emb函数中，当执行旋转位置编码计算时，两个张量的维度不匹配。具体来说，张量a的维度为369，而张量b的维度为370，在非单一维度2上无法对齐。

旋转位置编码是现代大型语言模型中常用的一种位置编码方式，它通过将查询和键向量旋转一定角度来引入位置信息。在Qwen2.5模型中，这一过程通过以下数学公式实现：

q_embed = (q * cos) + (rotate_half(q) * sin)

其中：

当维度不匹配时，这种逐元素运算就无法进行。在Transformer架构中，这种错误通常表明：

经过排查，发现该问题是由于transformers库版本不兼容导致的。具体解决方案是：

将transformers库升级到4.49.0版本。这个版本修复了与旋转位置编码相关的若干问题，包括张量维度对齐的逻辑。

这个问题虽然最终通过简单的版本升级解决，但它提醒我们在深度学习项目中，依赖管理的重要性不容忽视。

登录后查看全文