ColPali项目升级后transformers版本兼容性问题分析与解决方案

2025-07-08 00:52:21作者：劳婵绚Shirley

The code used to train and run inference with the ColVision models, e.g. ColPali, ColQwen2, and ColSmol.

项目地址：https://gitcode.com/gh_mirrors/co/colpali

问题背景

在使用ColPali项目时，用户在执行代码升级（git pull）并通过pip install -e .安装后，运行程序时遇到了transformers库的兼容性问题。具体表现为图像处理工具类中size字典的键值校验失败，系统期望的键组合与实际提供的键组合不匹配。

错误详情

核心错误信息显示transformers的image_processing_utils.py文件中get_size_dict方法对输入参数的校验失败。系统期望的键组合包括以下几种情况：

{'width', 'height'}
{'shortest_edge'}
{'longest_edge', 'shortest_edge'}
{'longest_edge'}
{'max_width', 'max_height'}

然而实际获取到的键组合为：{'max_pixels', 'min_pixels', 'longest_edge', 'shortest_edge'}，这导致了ValueError异常。

问题根源

此问题主要源于transformers 4.53.0版本引入的一个不向后兼容的变更。在该版本中，对图像处理器配置的校验逻辑变得更加严格，不再接受之前版本中可用的某些配置参数组合。

解决方案

临时解决方案

修改preprocessor.json文件：用户可以手动编辑preprocessor.json文件，删除其中的max_pixels和min_pixels键值对。这种方法能够快速解决问题，但需要注意这可能会影响某些图像处理功能。
回退版本：另一种方案是回退到colpali-engine 3.10版本，配合使用transformers 4.51版本。这种方法可以完全避免新版本引入的问题，但会失去新版本的其他改进。

长期解决方案

项目维护者表示正在等待transformers官方发布修复补丁。一旦transformers 4.53.0版本的bug被修复，colpali-engine将会进行相应更新并发布新的稳定版本。

后续问题处理

部分用户在应用临时解决方案后遇到了数据加载器的问题。经过确认，这是由于项目分支尚未合并等待transformers修复所致。维护者已合并相关分支，问题得到解决。

最佳实践建议

在升级项目代码前，建议先检查依赖库的版本兼容性。
对于生产环境，建议锁定关键依赖库的版本以避免意外变更。
遇到类似问题时，可以考虑从源码安装依赖库（如pip install git+https://github.com/huggingface/transformers），但需要注意这可能会引入其他不稳定因素。

总结

ColPali项目中遇到的这个问题典型地展示了深度学习生态系统中依赖库快速迭代可能带来的兼容性挑战。通过理解问题本质、应用适当的临时解决方案，并关注官方更新，用户可以有效地应对这类问题。同时，这也提醒开发者在项目依赖管理上需要更加谨慎，特别是在生产环境中。

The code used to train and run inference with the ColVision models, e.g. ColPali, ColQwen2, and ColSmol.

项目地址：https://gitcode.com/gh_mirrors/co/colpali

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。