InternLM-XComposer多图SFT训练中的图像处理问题解析

2025-06-28 16:00:32作者：邬祺芯Juliet

在InternLM-XComposer项目进行多图监督微调(SFT)训练时，开发者可能会遇到图像处理相关的技术挑战。本文将深入分析这些问题的根源，并提供专业的解决方案。

问题现象分析

当输入单张图像时，模型运行正常；但当输入两张图像时，系统会抛出形状不匹配的错误。具体表现为：在尝试将图像reshape为[1,3,5,336,3,336]形状时，系统提示输入尺寸10160640与目标形状不兼容。

经过技术分析，发现该问题主要由两个因素导致：

针对上述问题，我们提出以下技术解决方案：

统一图像尺寸：修改data_mix.py中的Sample_dataset类，确保所有输入图像在预处理阶段被调整为统一尺寸。这一步是多图训练的基础保障。
调整reshape维度：在build_mlp.py中，将sub_image的reshape操作第一维度改为动态值，使其能够适应不同数量的输入图像。具体修改如下：
```
sub_img = img.reshape(cnt,3,H//336,336,W//336,336).permute(0,2,4,1,3,5).reshape(-1,3,336,336).contiguous()
```
其中cnt表示输入图像数量（单图为1，多图为实际图像数量）。

InternLM-XComposer的4khd模型在处理多图时还存在一些架构限制：

对于多图训练任务，建议使用InternLM-XComposer 2.5版本提供的官方微调代码，该版本已针对多图、多轮数据进行了专门优化。
在自定义多图处理逻辑时，务必确保：
- 所有输入图像尺寸一致
- 批处理维度正确设置
- 特征提取和拼接逻辑能够适应不同数量的输入图像
在修改模型结构时，建议添加维度断言检查，如示例代码中的assert temp_len == output_imgs[-1].shape[1]，这有助于快速定位维度不匹配问题。

通过以上技术分析和解决方案，开发者可以更顺利地在InternLM-XComposer项目中实现多图监督微调训练，充分发挥多模态模型的潜力。

登录后查看全文