MMYOLO知识蒸馏后模型加载问题的解决方案

2025-07-10 17:46:43作者：胡唯隽

问题背景

在使用MMYOLO框架进行RTMDet模型的知识蒸馏训练后，许多开发者会遇到模型权重加载失败的问题。具体表现为尝试加载蒸馏后的模型检查点时，系统报错提示"unexpected key in source state_dict"和"missing keys in source state_dict"。

问题现象分析

当开发者使用标准的init_detector方法加载经过知识蒸馏训练的模型时，会遇到两种类型的错误：

意外键值：模型检查点中包含以"architecture.backbone"开头的键名
缺失键值：加载程序期望找到以"backbone"开头的键名

这种键名不匹配的问题源于知识蒸馏过程中模型结构的特殊处理方式。在蒸馏训练时，MMRazor框架会对模型进行封装，导致保存的检查点键名与原始模型结构不一致。

解决方案

经过实践验证，正确的模型加载方式应使用DetInferencer类。以下是具体实现代码：

inferencer = DetInferencer(
    model='configs/rtmdet/distillation/kd_l_rtmdet_x_neck_phones.py',
    weights='work_dirs/kd_l_rtmdet_x_neck_phones/best_coco_bbox_mAP_epoch_297.pth',
    scope='mmyolo',
    device='cuda:2')

技术原理

知识蒸馏框架的特殊性：MMRazor在知识蒸馏过程中会将学生模型和教师模型封装在一个更大的框架中，这导致了模型权重的键名发生变化。
DetInferencer的优势：相比init_detector，DetInferencer能够自动处理这种键名转换问题，因为它内部集成了对MMRazor蒸馏模型的支持。
scope参数的作用：指定'scope=mmyolo'确保加载器使用正确的模型注册表，这对于跨框架模型加载至关重要。

最佳实践建议

对于知识蒸馏后的模型，始终优先使用DetInferencer进行加载
确保配置文件路径和权重路径正确
明确指定设备参数以避免跨设备错误
对于生产环境部署，可以考虑将蒸馏后的模型导出为更通用的格式

总结

MMYOLO与MMRazor结合使用时，模型加载需要特别注意框架间的兼容性问题。通过使用DetInferencer并正确配置参数，开发者可以顺利加载和使用经过知识蒸馏优化的模型。这一解决方案不仅适用于RTMDet系列模型，也适用于其他使用MMRazor进行蒸馏的检测模型。

mmrazor

OpenMMLab Model Compression Toolbox and Benchmark.

项目地址：https://gitcode.com/gh_mirrors/mm/mmrazor

登录后查看全文