VLMEvalKit项目中InternVL2模型运行问题分析与解决

2025-07-03 06:33:45作者：侯霆垣

Open-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

问题背景

在VLMEvalKit项目中，用户尝试运行InternVL2系列模型时遇到了一个特定的技术问题。当使用InternVL2-40B模型进行评估时，系统报出了cublas API错误（状态码15），而较小规模的InternVL2-26B模型则能正常运行。这一现象引起了开发者对模型兼容性和运行环境的深入探讨。

错误分析

从错误日志来看，系统在执行矩阵乘法运算时出现了问题。具体表现为：

输入矩阵A的维度为7175×3200
输入矩阵B的维度为9600×3200
输出矩阵C的预期维度为7175×9600
cuBLAS API返回状态码15（通常表示非法参数或不支持的运算）

这种错误通常与以下几个因素有关：

显存不足导致大矩阵运算失败
CUDA/cuBLAS版本与模型需求不匹配
模型权重加载异常
框架版本兼容性问题

解决方案

经过项目维护者的验证和测试，确定了以下解决方案：

环境配置检查：确保使用transformers库的4.37.0版本，这是InternVL2模型的官方推荐版本。
模型版本选择：虽然InternVL2-76B模型已在代码中实现，但当时尚未正式发布到配置文件中。用户若需使用最新的大模型版本，应关注项目的官方更新。
显存管理：对于40B及以上规模的模型，需要确保GPU设备具有足够的显存资源。可以考虑以下优化：
- 使用梯度检查点技术减少显存占用
- 启用混合精度训练
- 分布式计算策略
框架兼容性：验证CUDA工具包、cuDNN和PyTorch版本的兼容性，确保它们能够支持大模型的高效运算。

后续进展

项目团队随后完成了对InternVL2-76B模型的全面测试和集成，现已正式支持该超大模型。用户反馈的基准测试结果也表明，该系列模型在各种视觉语言任务中表现出色。

最佳实践建议

对于希望在VLMEvalKit项目中运行大模型的开发者，建议遵循以下步骤：

仔细阅读模型文档，了解特定版本要求
创建隔离的虚拟环境，确保依赖包版本准确
从小规模模型开始验证，逐步过渡到大模型
监控GPU资源使用情况，适时调整批次大小
关注项目更新，及时获取最新支持的模型列表

通过系统性的环境配置和模型选择，开发者可以充分利用VLMEvalKit项目提供的先进视觉语言评估能力，同时避免常见的运行错误。

Open-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks

项目地址：https://gitcode.com/gh_mirrors/vl/VLMEvalKit

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息