Modelscope/SWIFT项目中InternVL3模型微调时的Transformers版本兼容性问题分析

2025-05-31 19:20:44作者：羿妍玫Ivan

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

问题背景

在Modelscope/SWIFT项目中使用3.3.1版本进行InternVL3模型的SFT(监督式微调)时，用户遇到了一个与Transformers库版本相关的兼容性问题。该问题表现为在模型加载过程中出现正则表达式编译错误，具体涉及模型并行计划(_tp_plan)的处理。

错误现象

当尝试加载InternVL3模型进行微调时，系统抛出了以下关键错误信息：

File "/usr/local/lib/python3.11/site-packages/transformers/modeling_utils.py", line 5829, in caching_allocator_warmup
    re.compile("|".join([re.escape(plan) for plan in model._tp_plan]))

这个错误表明在模型加载的预热阶段，当尝试为张量并行计划(tensor parallelism plan)创建正则表达式模式时出现了问题。错误发生在Transformers库的modeling_utils.py文件中，具体是在caching_allocator_warmup函数内部。

问题根源

经过技术分析，这个问题源于Transformers库中张量并行处理逻辑的特定实现方式。在较新版本的Transformers库中，对模型并行计划的处理方式发生了变化，导致与InternVL3模型的兼容性问题。

具体来说，错误发生在模型加载的预热阶段，系统尝试将模型的张量并行计划(_tp_plan)编译为正则表达式模式时。这个机制原本是为了优化模型在不同设备间的内存分配，但在特定版本组合下会引发兼容性问题。

解决方案

针对这一问题，项目团队已经验证了有效的解决方案：

版本锁定：将Transformers库固定到4.50.2版本可以解决此问题。这个特定版本与InternVL3模型的兼容性经过验证，能够正确处理模型的张量并行计划。
环境隔离：建议使用虚拟环境或容器技术来隔离模型微调环境，确保依赖库版本的稳定性。

最佳实践建议

版本控制：在进行大规模模型微调前，建议先在小规模数据上测试模型加载和基础功能，验证环境配置的正确性。
依赖管理：使用requirements.txt或conda环境文件明确记录所有依赖库的版本，便于环境复现。
错误监控：对于类似模型加载阶段的错误，可以尝试降低Transformers版本作为初步排查手段。
社区资源：遇到类似问题时，可以参考开源社区已有的解决方案，但需要注意解决方案的时效性和特定性。

总结

模型微调过程中的库版本兼容性问题在深度学习实践中较为常见，特别是当使用较新的模型架构时。本次InternVL3模型在SWIFT框架中微调时遇到的问题，凸显了深度学习工具链中版本管理的重要性。通过锁定特定版本的Transformers库，可以有效解决这类兼容性问题，确保模型微调流程的顺利进行。

swift

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理