RT-DETR项目中BCE损失函数替换为CE损失函数的实践分析

2025-06-20 09:15:25作者：盛欣凯Ernestine

背景介绍

RT-DETR作为基于DETR架构的实时目标检测模型，在目标检测领域表现出色。在模型训练过程中，损失函数的选择对模型性能有着至关重要的影响。本文将深入探讨在RT-DETR项目中，将二元交叉熵损失(BCE)替换为交叉熵损失(CE)时遇到的技术问题及其解决方案。

问题现象

在RT-DETR项目中，当尝试将默认的BCE损失函数替换为CE损失函数时，出现了以下问题：

模型无法正常收敛，mAP指标仅能达到4%左右
训练过程中出现loss突然崩溃的现象
即使调整学习率和梯度截断参数，问题依然存在
最终模型性能(mAP 45%)远低于使用BCE损失时的性能(mAP 53.1%)

问题根源分析

经过深入排查，发现导致这些问题的主要原因有以下几个方面：

背景类权重设置不当：CE损失中背景类的权重默认设置为1e-4，这个值过小导致模型难以学习背景类别的特征。
类别数量配置错误：使用CE损失时需要将配置中的num_classes设置为实际类别数+1（考虑背景类），而原始配置没有进行相应调整。
编码器输出处理不当：在计算topk索引时，没有正确处理背景类别的输出，导致模型训练不稳定。

解决方案

针对上述问题，我们采取了以下改进措施：

调整背景类权重：将CE损失中背景类的权重从默认的1e-4调整为1，使模型能够更好地学习背景特征。
修正类别数量配置：在配置文件中将num_classes设置为实际类别数+1，以正确反映包含背景类别的实际情况。
修改编码器输出处理逻辑：调整topk索引计算方式，确保正确处理背景类别输出。具体修改为：
```
_, topk_ind = torch.topk(enc_outputs_class[:,:, :-1].max(-1).values, self.num_queries, dim=1)
```

实施效果

经过上述修改后：

模型能够正常收敛，不再出现loss突然崩溃的现象
训练过程变得稳定，不再需要极端的学习率(1e-6)或梯度截断(1e-4)设置
最终模型性能达到mAP 45%，虽然仍低于BCE损失的表现，但已经能够正常训练

性能差距分析

尽管解决了收敛问题，但CE损失(45% mAP)与BCE损失(53.1% mAP)之间仍存在显著性能差距，这可能源于：

损失函数特性差异：BCE损失在多类别检测任务中通常表现更好，因为它可以独立处理每个类别的预测
类别不平衡处理：BCE损失更容易处理前景-背景类别不平衡问题
模型架构适配性：RT-DETR可能针对BCE损失进行了特定优化

实践建议

基于本次实践，我们提出以下建议：

在RT-DETR项目中，除非有特殊需求，否则建议保持使用默认的BCE损失函数
如需使用CE损失，必须严格按照上述解决方案进行调整
可以尝试进一步调整背景类权重，寻找最佳平衡点
考虑结合Focal Loss等改进方法，可能有助于提升CE损失下的模型性能

总结

本文详细分析了在RT-DETR项目中将BCE损失替换为CE损失时遇到的技术挑战及其解决方案。通过调整背景类权重、修正类别数量配置和改进编码器输出处理，成功解决了模型无法收敛的问题。然而，性能差距表明在目标检测任务中，损失函数的选择需要谨慎考虑模型架构和任务特性。这些经验对于深入理解DETR系列模型和损失函数选择具有重要参考价值。

RT-DETR

[CVPR 2024] Official RT-DETR (RTDETR paddle pytorch), Real-Time DEtection TRansformer, DETRs Beat YOLOs on Real-time Object Detection. 🔥 🔥 🔥

项目地址：https://gitcode.com/gh_mirrors/rt/RT-DETR

登录后查看全文