Super-Gradients中YOLO-NAS模型的多标签预测优化

2025-06-11 11:06:11作者：瞿蔚英Wynne

背景介绍

Super-Gradients是一个强大的深度学习训练库，提供了多种先进的计算机视觉模型实现。其中YOLO-NAS作为目标检测领域的新星模型，在速度和精度之间取得了很好的平衡。在实际应用中，开发者有时需要限制每个边界框只能预测一个类别标签，而不是默认的多标签预测方式。

问题发现

在Super-Gradients库的早期版本中，YOLO-NAS模型的训练阶段可以通过PPYoloEPostPredictionCallback配置单标签预测模式，但在推理阶段却缺乏相应的参数控制。这导致训练和推理行为不一致，影响了模型在实际应用中的表现。

技术实现分析

YOLO-NAS模型的后处理阶段通过PPYoloEPostPredictionCallback类完成预测结果的解码和非极大值抑制(NMS)处理。该类的核心功能包括：

将模型输出的原始预测转换为边界框坐标
应用置信度阈值过滤低质量预测
执行非极大值抑制去除冗余框
处理类别预测结果

在原始实现中，该回调类支持通过multi_label_per_box参数控制是否允许多标签预测，但在模型推理接口中未暴露此参数。

解决方案演进

开发团队通过以下步骤解决了这一问题：

识别到推理接口与训练配置不一致的问题
在模型预测方法中新增multi_label_per_box参数
确保该参数能够正确传递到后处理回调
保持与训练阶段行为的兼容性

使用示例

更新后的版本中，用户可以通过以下方式使用单标签预测模式：

model = models.get("yolo_nas_s",
            checkpoint_path="path_to_checkpoint",
            num_classes=NUM_CLASSES)

with torch.no_grad():
    predictions = model.predict(
        image_paths,
        conf=0.1,
        batch_size=8,
        iou=0.5,
        multi_label_per_box=False,  # 关键参数
        max_predictions=50,
        nms_top_k=300,
        nms_threshold=0.7
    )