Moondream项目中的Tensor尺寸不匹配问题分析与解决方案

2025-05-28 19:53:39作者：温艾琴Wonderful

moondream是一款轻量级视觉语言模型，能够在任何地方运行，性能卓越。最新版本moondream2在多个基准测试中表现出色，如VQAv2、GQA、TextVQA和TallyQA，准确率高达79.4%、63.1%、57.2%和82.1%。支持图像描述、问答等多种任务，使用简单，支持批量推理和实时摄像头输入，适合开发者快速集成到项目中。

项目地址：https://gitcode.com/GitHub_Trending/mo/moondream

问题背景

在使用Moondream项目进行图像描述生成时，部分开发者遇到了Tensor尺寸不匹配的错误。具体表现为在模型推理过程中，系统提示"The expanded size of the tensor (754) must match the existing size (755) at non-singleton dimension 1"这样的错误信息。

错误现象分析

该错误通常发生在调用answer_question方法时，特别是在模型进行交叉注意力计算阶段。错误信息表明，在模型的非单一维度上，扩展后的Tensor尺寸(754)与现有Tensor尺寸(755)不匹配。

从技术角度看，这个问题源于Transformer模型在处理注意力掩码时的尺寸不一致。在模型的前向传播过程中，当执行padding_mask.masked_fill_(key_padding_mask, 0.0)操作时，两个Tensor在第一维度的尺寸不匹配导致操作失败。

根本原因

经过深入分析，发现这个问题与Transformers库的版本变化有关。具体来说：

在Transformers 4.37.2及之前版本中，模型能够正常工作
在升级到4.38.0及之后版本时，出现了上述尺寸不匹配问题

问题的本质在于新版本的Transformers库在处理key_padding_mask时，生成的掩码尺寸与模型期望的seqlen_k不匹配，导致后续操作失败。

解决方案

针对这个问题，开发者社区提出了几种解决方案：

临时解决方案

在modeling_phi.py文件中，找到约311行附近的代码，在创建padding_mask后添加一行代码：

if key_padding_mask is not None:
    padding_mask = torch.full(
        (batch_size, seqlen_k),
        -10000.0,
        dtype=scores.dtype,
        device=scores.device,
    )
    # 添加的关键修复代码
    key_padding_mask = key_padding_mask[:, :seqlen_k]
    
    padding_mask.masked_fill_(key_padding_mask, 0.0)
    scores = scores + rearrange(padding_mask, "b s -> b 1 1 s")

这行代码手动将key_padding_mask的尺寸截断为与seqlen_k一致，确保后续操作能够正常执行。