MMDetection中Grounding DINO模型加载权重不匹配问题解析

2025-05-04 08:14:03作者：苗圣禹Peter

问题背景

在使用MMDetection框架中的Grounding DINO模型时，开发者经常会遇到模型权重加载不匹配的问题。具体表现为运行示例代码时，系统提示"The model and loaded state dict do not match exactly"，并列出了一些未预期的键和缺失的键。

问题现象

当尝试运行Grounding DINO的示例代码时，控制台会输出以下关键信息：

未预期的键(unexpected keys)：
- language_model.language_backbone.body.model.pooler.dense.weight
- language_model.language_backbone.body.model.pooler.dense.bias
- language_model.language_backbone.body.model.embeddings.position_ids
缺失的键(missing keys)：
- bbox_head.cls_branches.0.log_scale等7个log_scale参数
- dn_query_generator.label_embedding.weight

问题原因分析

1. 配置文件和权重不匹配

最常见的原因是使用了错误的配置文件。Grounding DINO有不同的预训练配置和微调配置，使用不匹配的配置文件会导致权重加载问题。

2. Transformer版本兼容性问题

position_ids相关的问题通常与transformers库的版本有关。较新版本的transformers库可能会在模型中添加一些额外的参数，而这些参数在原始预训练权重中并不存在。

3. 模型结构差异

log_scale参数的缺失表明模型结构存在差异，这通常是因为使用了不同版本的模型定义代码或配置文件。

解决方案

1. 使用正确的配置文件

对于预训练模型，应该使用对应的预训练配置文件：

configs/grounding_dino/grounding_dino_swin-t_pretrain_obj365_goldg_cap4m.py

2. 调整transformers库版本

如果问题与position_ids相关，可以尝试降低transformers和tokenizers的版本：

tokenizers降级到0.13.3
transformers降级到4.29.1

3. 忽略不匹配的参数

对于position_ids这类非关键参数，可以安全地忽略这些警告，因为它们通常是模型可以动态计算的参数。

技术细节深入

position_ids参数分析

在Transformer模型中，position_ids用于表示token的位置信息。较新版本的transformers库将其作为可训练参数保存，但实际上这些信息可以动态计算得到。因此，即使权重文件中缺少这些参数，模型仍能正常工作。

log_scale参数的作用

log_scale参数用于调整分类分支的输出尺度，是Grounding DINO特有的设计。如果在微调配置中使用预训练权重，这些参数可能会缺失，因为它们通常是微调阶段才引入的。

最佳实践建议

始终确保配置文件与权重文件版本匹配
在复现示例时，仔细检查官方文档推荐的配置组合
对于非关键参数不匹配的警告，可以优先尝试运行模型，而非立即解决所有警告
保持环境一致性，特别是transformers等关键依赖的版本

通过以上分析和解决方案，开发者应该能够顺利解决Grounding DINO模型权重加载不匹配的问题，并正确运行目标检测任务。

mmdetection

OpenMMLab Detection Toolbox and Benchmark

项目地址：https://gitcode.com/gh_mirrors/mm/mmdetection

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

445

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1 K

617