Qwen2.5-VL 视觉定位任务中的边界框偏移问题分析与解决方案

2025-05-23 03:50:23作者：齐添朝

在基于Qwen2.5-VL模型进行文档布局分析等视觉定位任务时，开发者可能会遇到边界框预测结果出现明显偏移的问题。本文将深入分析这一现象的原因，并提供完整的解决方案。

问题现象

当使用Qwen2.5-VL模型进行文档元素定位任务时，经过监督微调(SFT)后，模型输出的边界框坐标经常出现以下问题：

坐标值明显超出输入图像的实际尺寸范围
预测框在垂直方向上呈现系统性偏移
虽然预测的类别基本正确，但位置信息不可用

根本原因分析

经过技术团队和社区开发者的深入排查，发现该问题主要由以下因素导致：

图像预处理不一致：LLaMA-Factory框架中使用的图像预处理方式与Qwen2.5-VL官方实现存在差异
Transformers版本问题：早期版本的transformers库中QwenVL2ImageProcessor对Qwen2.5-VL的适配不完善
坐标转换逻辑：在数据准备阶段，原始边界框坐标到模型输入尺寸的转换可能存在误差

解决方案

方案一：升级transformers库

将transformers库升级至4.51.0或更高版本可以解决大部分偏移问题。新版本中优化了图像处理器对Qwen2.5-VL的适配性。

方案二：自定义图像处理插件

对于需要更精细控制的情况，可以重写LLaMA-Factory中的图像处理插件，直接使用Qwen2.5-VL官方的图像处理工具：

import qwen_vl_utils
from typing import Sequence, List

# 设置与模型训练一致的像素范围
qwen_vl_utils.vision_process.MIN_PIXELS = 512 * 28 * 28
qwen_vl_utils.vision_process.MAX_PIXELS = 1024 * 28 * 28

@dataclass
class Qwen2VLPlugin(BasePlugin):
    @override
    def _regularize_images(
        self, images: Sequence["ImageInput"], **kwargs
    ) -> List["ImageObject"]:
        results = []
        for image in images:
            # 统一各种输入类型的处理逻辑
            if isinstance(image, (str, BinaryIO)):
                image = Image.open(image)
            elif isinstance(image, bytes):
                image = Image.open(BytesIO(image))
            elif isinstance(image, dict):
                if image["bytes"] is not None:
                    image = Image.open(BytesIO(image["bytes"]))
                else:
                    image = Image.open(image["path"])

            if not isinstance(image, ImageObject):
                raise ValueError("输入应为图像列表")
            
            # 使用官方图像处理工具
            ele = {"image": image}
            sampled_image = qwen_vl_utils.fetch_image(ele)
            if sampled_image.mode != "RGB":
                sampled_image = sampled_image.convert("RGB")
            results.append(sampled_image)
        return {"images": results}