InternLM-XComposer2-VL模型推理中的Attention Mask尺寸匹配问题分析

2025-06-28 07:53:21作者：董灵辛Dennis

在部署和使用InternLM-XComposer2-VL多模态大模型时，开发者在执行图像描述生成任务时遇到了一个典型的运行时错误。该错误发生在模型的前向传播过程中，具体表现为Attention Mask张量尺寸不匹配的问题。

问题现象

当开发者按照官方示例代码尝试运行模型时，系统抛出了一个RuntimeError异常。错误信息明确指出，在模型解码阶段准备注意力掩码时，两个张量在第3维上的尺寸不匹配（373 vs 372）。这一错误发生在_prepare_decoder_attention_mask方法的执行过程中，当系统尝试对expanded_attn_mask和combined_attention_mask进行加法操作时触发了尺寸检查失败。

技术背景

InternLM-XComposer2-VL是一个结合视觉和语言能力的多模态大模型，其核心架构基于Transformer。在生成式任务中，模型需要正确处理注意力掩码以确保：

自回归生成时只能关注已生成的内容
正确处理图像和文本的跨模态注意力
维持序列生成过程中的因果性约束

根本原因分析

经过技术排查，该问题主要源于以下技术细节：

Transformer版本兼容性问题：模型实现与当前安装的Transformer库版本存在不兼容，特别是在处理注意力掩码的逻辑上存在差异。
序列长度计算偏差：在准备解码器注意力掩码时，模型对输入序列长度的计算可能因版本差异而出现一个token的偏差。
多模态输入处理：当同时处理图像嵌入和文本token时，不同版本对特殊token（如图像占位符）的处理方式可能不同。

解决方案

针对这一问题，开发者可以采取以下解决措施：

版本对齐：确保使用的transformers库版本与模型训练时使用的版本一致。InternLM-XComposer2-VL推荐使用特定版本的transformers库。
环境重建：创建一个全新的conda虚拟环境，按照官方文档严格安装指定版本的依赖库。
输入预处理检查：验证输入图像和文本的预处理流程，确保特殊token（如<ImageHere>）被正确处理。
模型加载参数：确认模型加载时的参数设置，特别是torch_dtype和low_cpu_mem_usage等关键参数是否合理。