Qwen2.5-VL模型微调中的image_grid_thw维度问题解析

2025-05-23 20:52:27作者：董宙帆

在Qwen2.5-VL多模态模型微调过程中，开发者可能会遇到一个常见的维度匹配问题，特别是在处理图像特征时。本文将深入分析这个问题的根源，并提供有效的解决方案。

问题现象

当尝试对Qwen2.5-VL进行微调时，模型会抛出"ValueError: too many values to unpack (expected 3)"的错误。这个错误发生在模型处理图像网格维度(image_grid_thw)的过程中，表明输入的维度与模型期望的格式不匹配。

根本原因分析

Qwen2.5-VL模型的视觉编码器期望的image_grid_thw输入格式为(num_images, 3)，其中3代表图像的时间、高度和宽度三个维度。然而，在实际微调过程中，我们通常会提供(batch_size, num_images, 3)格式的输入，这就导致了维度不匹配的问题。

这种设计差异源于模型处理单张图像和多张图像时的不同需求。在单样本处理时，模型只需要关注当前图像的维度信息；而在批量处理时，需要同时考虑批次维度和图像维度。

解决方案

针对这个问题，开发者可以采用以下两种解决方案：

维度展平法：将输入的(batch_size, num_images, 3)张量展平为(batch_size*num_images, 3)，这样就能满足模型对输入维度的要求。模型内部会自动将这些视觉token重新分配到对应的batch位置。

if k in ('pixel_values', 'image_grid_thw'):
    if isinstance(v, torch.Tensor):
        batch[k] = torch.concat([f[k] for f in features])
    elif isinstance(v, np.ndarray):
        batch[k] = torch.concat(np.stack([f[k] for f in features]))
    else:
        batch[k] = torch.concat([f[k] for f in features])

使用AutoProcessor预处理： Qwen2.5-VL提供了专门的AutoProcessor，可以自动处理图像尺寸的标准化问题：

processor = AutoProcessor.from_pretrained(model_args.model_name_or_path, 
                                       min_pixels=data_args.min_pixels, 
                                       max_pixels=data_args.max_pixels)
image_grid_thw = processor.get_image_grid_thw(images)