47.7% TETA分数突破：MASA如何重新定义开放词汇多目标跟踪？

2026-04-07 11:38:13作者：丁柯新Fawn

技术突破：从传统方法到零样本关联学习的跨越

开放词汇多目标跟踪（Open-vocabulary MOT）长期面临两大挑战：未知类别泛化能力弱和跨帧关联鲁棒性不足。MASA（Matching Anything by Segmenting Anything）通过创新性地将SAM（Segment Anything Model）的通用分割能力与动态适配机制相结合，在TAO数据集上实现了47.7%的TETA分数，较传统方法提升37.8%，开创了零样本关联学习的新范式。

这一突破的核心在于MASA解决了三个关键问题：无需人工标注的视觉特征学习、跨模态特征融合策略，以及复杂场景下的实例关联鲁棒性。其技术路线证明了通用视觉模型与领域适配相结合的可行性，为开放词汇跟踪领域提供了全新的解决方案。

核心架构：SAM驱动的双路径特征融合系统

MASA的技术架构围绕"自监督学习-特征融合-实例关联"的三级递进设计，通过模块化组件实现高效的开放词汇跟踪能力。

自监督视觉特征学习模块：从无标注数据中挖掘关联线索

MASA采用Bootstrap Sampling策略，从多样化无标注图像中自动构建训练样本。该模块通过SAM生成的掩码区域，建立像素级对应关系，在masa/models/sam/中实现密集相似度学习。这种设计使模型无需人工标注即可掌握物体的时空关联性，为开放词汇跟踪奠定了通用视觉先验基础。

双路径特征融合机制：像素级与实例级的协同表示

MASA创新性地设计了双路径特征融合架构：

像素级路径：通过SAM图像编码器提取细粒度视觉特征
实例级路径：利用MASA Adapter将分割掩码转化为实例嵌入

这两种特征在masa/models/mot/masa.py中进行动态融合，形成兼顾细节与语义的鲁棒特征表示，有效解决了传统方法在外观变化和遮挡情况下的跟踪漂移问题。

动态关联推理引擎：实现跨帧实例匹配

基于融合特征，MASA构建了动态关联推理引擎，通过学习到的相似度度量自动完成跨帧实例匹配。该引擎特别优化了类别无关的匹配策略，使模型能够处理训练中未见过的物体类别，这也是MASA在零样本迁移场景下性能衰减仅为传统方法1/3的关键所在。

性能验证：在TAO/BDD100K数据集上的全面领先

MASA在主流基准测试中展现出显著优势，特别是在零样本迁移场景下的表现尤为突出。以下是与现有方法的核心指标对比：

模型	TAO TETA（%）	BDD MOT mIDF1（%）	BDD MOTS mIDF1（%）	零样本性能衰减率（%）
TETer	34.6	51.6	-	42.3
OVTrack	34.7	-	-	38.7
MASA-GroundingDINO	46.7	55.7	48.9	14.2

MASA的性能优势源于其独特的技术设计：SAM提供的通用视觉先验解决了类别泛化问题，而动态适配器则确保了跨帧关联的稳定性。在包含1230个类别的TAO数据集中，MASA对未见过类别的跟踪准确率达到见过类别的85.8%，远超传统方法的61.3%。

实践指南：从环境搭建到模型测试的完整流程

环境准备

首先克隆项目仓库并安装依赖：

git clone https://gitcode.com/gh_mirrors/ma/masa
cd masa
bash install_dependencies.sh
conda env create -f environment.yml
conda activate masa

数据集配置

按照docs/benchmark_test.md的规范准备TAO和BDD100K数据集：

# 创建数据目录并建立符号链接
mkdir -p data
ln -s /path/to/tao data/tao
ln -s /path/to/bdd100k data/bdd

# 下载预训练检测结果
wget https://huggingface.co/dereksiyuanli/masa/resolve/main/public_dets_masa.zip
unzip public_dets_masa.zip -d data/detections

模型测试

以MASA-GroundingDINO在TAO TETA基准上的测试为例：

# 单卡测试
python tools/test.py configs/masa-gdino/tao_teta_test/masa_gdino_swinb_tao_test_detic_dets.py saved_models/masa_models/gdino_masa.pth

# 多卡分布式测试（8张GPU）
tools/dist_test.sh configs/masa-gdino/tao_teta_test/masa_gdino_swinb_tao_test_detic_dets.py saved_models/masa_models/gdino_masa.pth 8

可视化结果

使用demo工具查看跟踪效果：

python demo/video_demo_with_text.py --config configs/masa-gdino/bdd_test/masa_gdino_bdd_mot_test.py --checkpoint saved_models/masa_models/gdino_masa.pth --input demo/minions_rush_out.mp4 --output results/masa_demo.mp4

应用前景：开放词汇跟踪技术的未来方向

MASA不仅是一项技术突破，更为开放词汇跟踪领域提供了可扩展的框架。基于MASA的架构，开发者可以探索以下方向：

自定义类别扩展

通过configs/masa-gdino/中的配置文件，用户可以轻松扩展自定义类别，无需重新训练整个模型，只需调整适配器参数即可实现新类别的跟踪支持。

实时性优化

MASA的双路径特征融合设计支持层级化推理，通过调整masa/models/necks/simplefpn.py中的特征分辨率参数，可以在精度和速度之间取得平衡，满足不同场景的实时性需求。

多模态线索融合

MASA的适配器架构天然支持多模态输入，未来可融合文本描述、音频信号等额外线索，进一步提升复杂场景下的跟踪鲁棒性。

快速开始

要立即体验MASA的强大功能，请按照以下步骤操作：

克隆项目仓库：

git clone https://gitcode.com/gh_mirrors/ma/masa

参考docs/install.md完成环境配置
按照实践指南中的步骤准备数据并运行测试

MASA作为CVPR24的创新成果，正在持续迭代优化。欢迎社区贡献代码和想法，共同推动开放词汇多目标跟踪技术的发展。

masa

Official Implementation of CVPR24 highlight paper: Matching Anything by Segmenting Anything

项目地址：https://gitcode.com/gh_mirrors/ma/masa

登录后查看全文

47.7% TETA分数突破：MASA如何重新定义开放词汇多目标跟踪？

技术突破：从传统方法到零样本关联学习的跨越

核心架构：SAM驱动的双路径特征融合系统

自监督视觉特征学习模块：从无标注数据中挖掘关联线索

双路径特征融合机制：像素级与实例级的协同表示

动态关联推理引擎：实现跨帧实例匹配

性能验证：在TAO/BDD100K数据集上的全面领先

实践指南：从环境搭建到模型测试的完整流程

环境准备

数据集配置

模型测试

可视化结果

应用前景：开放词汇跟踪技术的未来方向

自定义类别扩展

实时性优化

多模态线索融合

快速开始

热门内容推荐

最新内容推荐

项目优选

47.7% TETA分数突破：MASA如何重新定义开放词汇多目标跟踪？

技术突破：从传统方法到零样本关联学习的跨越

核心架构：SAM驱动的双路径特征融合系统

自监督视觉特征学习模块：从无标注数据中挖掘关联线索

双路径特征融合机制：像素级与实例级的协同表示

动态关联推理引擎：实现跨帧实例匹配

性能验证：在TAO/BDD100K数据集上的全面领先

实践指南：从环境搭建到模型测试的完整流程

环境准备

数据集配置

模型测试

可视化结果

应用前景：开放词汇跟踪技术的未来方向

自定义类别扩展

实时性优化

多模态线索融合

快速开始

相关内容推荐

热门内容推荐

最新内容推荐

项目优选