T-Rex2模型训练过程的技术解析

2025-07-01 19:02:26作者：郜逊炳

训练流程概述

T-Rex2作为目标检测领域的重要模型，其训练过程采用了分阶段策略。模型首先专注于文本提示分支的训练，待该部分收敛后再同时训练文本和视觉提示分支。这种分阶段方法源于文本提示分支需要更多数据和更长时间才能达到理想性能的实际情况。

在视觉提示训练阶段，T-Rex2采用当前mini-batch内的样本作为负样本来源。具体实现中，模型仅从当前GPU处理的批次数据中采样负提示，这种设计虽然简单但有效。值得注意的是，研究团队指出采用类似DINOv模型中的跨GPU负样本采样策略可能会带来额外的性能提升。

T-Rex2采用了Sigmoid Focal Loss作为分类损失函数，这种损失函数最初在RetinaNet中提出，特别适合处理类别不平衡问题。与传统的交叉熵损失相比，Focal Loss通过引入调节因子(γ)和平衡参数(α)，能够有效降低易分类样本的权重，使模型更关注难样本。

在实现细节上，模型处理视觉提示嵌入(1×C维度)和检测查询(900×C维度)时，不进行归一化处理，而是直接计算它们的点积得到最终logits(900×1)。这些logits经过sigmoid函数转换后，输出值落在0到1之间，作为最终的检测得分。

特征处理：不同于一些需要归一化嵌入向量的方法，T-Rex2直接使用原始特征向量进行相似度计算，简化了计算流程。
多标签处理：Sigmoid Focal Loss能够处理多类别情况，每个预测框可以对应0、1、2等多个类别标签，这增强了模型在多类别检测任务中的灵活性。
训练效率：通过分阶段训练策略，模型能够更高效地利用计算资源，先确保文本提示分支的稳定性，再优化视觉提示性能。

这种训练架构设计使得T-Rex2在保持高效训练的同时，能够获得优异的检测性能，特别是在处理多模态提示(文本+视觉)的场景下表现出色。

登录后查看全文