ColPali项目中的BiPali模型复现问题分析与解决方案

2025-07-08 00:16:13作者：曹令琨Iris

The code used to train and run inference with the ColPali architecture.

项目地址：https://gitcode.com/gh_mirrors/co/colpali

背景介绍

ColPali是一个基于PaliGemma架构的多模态检索模型，其中BiPali作为其双编码器版本，在论文中报告了优异的性能表现。然而在实际复现过程中，研究人员遇到了显著的性能差距问题——复现结果比论文报告低了约24个NDCG@5点。

问题表现

复现过程中观察到的关键现象包括：

性能差距显著：在10个标准测试集上，复现模型的平均NDCG@5仅为34，远低于论文报告的58.8
训练过程不稳定：BiPali的训练损失曲线表现出明显高于ColPali的波动性
模型初始化敏感：使用不同基础模型初始化时，性能差异可达5-6个NDCG@5点

原因分析

经过深入排查，发现问题主要源于以下几个方面：

训练脚本启动方式不当：使用torchrun而非python直接运行，导致全局批处理规模计算错误
损失函数选择：最初使用了BiPairwiseCELoss而非更优的BiEncoderPairwiseLoss
批处理规模不足：较小的批处理规模影响了模型收敛稳定性
投影层初始化：虽然BiPali不使用投影层，但模型加载方式可能引入额外变数

解决方案与优化建议

针对上述问题，项目维护者提出了以下解决方案：

正确启动训练脚本：
- 使用python scripts/train/train_colbert.py而非torchrun
- 确保全局批处理规模计算正确
优化损失函数：
- 采用BiEncoderPairwiseLoss替代BiPairwiseCELoss
- 考虑引入负样本挖掘技术进一步提升性能
扩大批处理规模：
- 在硬件允许情况下尽可能增大per_device_train_batch_size
- 使用梯度检查点技术减少显存占用
- 实验证明256的批处理规模可获得优于论文的结果
训练稳定性控制：
- 使用确定性的投影层初始化（通过特定基础模型）
- 监控训练过程中的损失波动范围（理想应在0.53±0.01）

复现验证结果

采用正确配置后，复现结果与论文报告高度一致：

BiPali模型在测试集上的平均NDCG@5达到58.0
ColPali模型更是达到了83.4，超过论文报告的81.3
训练损失稳定在0.54左右，符合预期范围

经验总结

多模态模型的复现需要特别注意训练配置的每个细节
批处理规模对模型性能有显著影响，在硬件允许下应尽可能扩大
损失函数的选择需要与模型架构特点相匹配
模型初始化方式会影响结果的可重复性，建议使用确定性的基础模型

这一案例展示了深度学习研究中复现工作的重要性，也体现了ColPali项目团队对模型可复现性的重视。通过系统性排查和优化，不仅解决了复现问题，还发现了进一步提升模型性能的途径。

The code used to train and run inference with the ColPali architecture.

项目地址：https://gitcode.com/gh_mirrors/co/colpali

登录后查看全文

热门内容推荐

1 Awesome项目中的机器学习资源整合探讨 2 Awesome项目Windows资源链接修复事件解析

最新内容推荐

中兴e读zedx.zed文档阅读器V4.11轻量版：专业通信设备文档阅读解决方案全球36个生物多样性热点地区KML矢量图资源详解与应用指南海能达HP680CPS-V2.0.01.004chs写频软件：专业对讲机配置管理利器 STM32到GD32项目移植完全指南：从兼容性到实战技巧瀚高迁移工具migration-4.1.4：企业级数据库迁移的智能解决方案 CrystalIndex资源文件管理系统：高效索引与文件管理的最佳实践指南 PhysioNet医学研究数据库：临床数据分析与生物信号处理的权威资源指南电脑PC网易云音乐免安装皮肤插件使用指南：个性化音乐播放体验全球GEOJSON地理数据资源下载指南 - 高效获取地理空间数据的完整解决方案高效汇编代码注入器：跨平台x86/x64架构的终极解决方案

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。

flutter_flutter

cangjie_runtime

仓颉编程语言运行时与标准库。

仓颉编程语言命令行工具，包括仓颉包管理工具、仓颉格式化工具、仓颉多语言桥接工具及仓颉语言服务。

ohos_react_native

React Native鸿蒙化仓库

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。