揭秘MASA如何实现47.7% TETA分数：开放词汇多目标跟踪技术突破

2026-04-07 12:11:14作者：凤尚柏Louis

MASA（Matching Anything by Segmenting Anything）作为CVPR24的创新成果，通过将SAM（Segment Anything Model）的分割能力与动态适配器相结合，构建了端到端的实例关联框架，在TAO数据集上实现47.7% TETA分数，开创了零样本关联学习新范式，为开放词汇多目标跟踪领域树立新标杆。

核心突破：跨模态关联学习的技术跃迁

传统多目标跟踪方法受限于预定义类别和人工标注依赖，在面对未见过的目标类别时性能急剧下降。MASA通过三大技术创新实现突破：首先是自监督视觉特征学习，从无标注图像中挖掘像素级对应关系；其次是双路径特征融合，结合像素级和实例级特征；最后是动态适配器设计，实现通用视觉先验与跟踪任务的高效适配。这些创新使MASA在零样本迁移场景下性能衰减幅度仅为传统方法的1/3。

图1：MASA技术架构展示了通过Bootstrap Sampling和SAM实现跨模态关联学习的流程

技术解析：SAM驱动的实例关联机制

[自监督特征学习]：无标注数据的价值挖掘

MASA采用Bootstrap Sampling策略，从海量无标注图像中自动构建正负样本对。通过SAM生成的掩码区域，模型在密集相似度学习过程中掌握物体的时空关联性。核心逻辑实现：masa/models/sam/。这一过程类似人类通过观察大量事物自主学习物体特征，无需人工标注即可建立视觉关联知识。

[双路径融合]：像素与实例的协同表达

MASA创新性地设计了双路径特征融合机制：像素级路径通过SAM的图像编码器提取细粒度视觉特征，如同显微镜下观察物体细节；实例级路径利用MASA Adapter将分割掩码转化为实例嵌入，好比给每个物体发放独特"身份卡"。双路径特征在masa/models/mot/masa.py中进行动态融合，形成鲁棒的跨帧关联线索。

[动态适配]：通用模型的领域落地

MASA Adapter作为连接SAM通用能力与跟踪任务的桥梁，能够根据不同场景动态调整特征权重。这种设计既保留了SAM的通用视觉先验，又针对多目标跟踪任务进行了专项优化，实现了"通用模型+领域适配"的最佳平衡。

实践验证：从数据到部署的完整流程

📊 性能对比：全面领先的跟踪表现

调整列顺序和指标呈现形式后，MASA的性能优势更加清晰：

模型	BDD MOT mIDF1	BDD MOTS mIDF1	TAO TETA
TETer	51.6	-	34.6
OVTrack	-	-	34.7
MASA-GroundingDINO	55.7	48.9	46.7

🔍 数据集准备与测试流程

MASA支持TAO和BDD100K数据集，按以下步骤准备：

建立数据链接：

ln -s /path/to/tao data/tao
ln -s /path/to/bdd100k data/bdd

转换标注格式至COCO风格
下载预训练检测结果

测试命令示例：

tools/dist_test.sh configs/masa-gdino/tao_teta_test/masa_gdino_swinb_tao_test_detic_dets.py saved_models/masa_models/gdino_masa.pth 8

图2：MASA对密集排列相似物体的稳定跟踪效果，体现跨模态关联能力

应用前景：开放词汇跟踪的未来方向

MASA的技术路线为智能视频分析开辟了新路径。其代码架构在configs/masa-gdino/等目录下提供完整实现，开发者可探索自定义类别扩展、实时性优化和多模态线索融合等方向。

图3：MASA在BDD100K驾驶场景中的实时跟踪可视化，展示跨模态关联在实际场景中的应用

随着基础模型的持续进化，MASA有望在智能监控、自动驾驶、机器人导航等领域广泛应用。要开始使用MASA，可通过以下命令克隆项目：

git clone https://gitcode.com/gh_mirrors/ma/masa

详细安装指南参见docs/install.md。MASA的创新不仅是技术突破，更为通用人工智能在视觉领域的落地提供了新范式。

masa

Official Implementation of CVPR24 highlight paper: Matching Anything by Segmenting Anything

项目地址：https://gitcode.com/gh_mirrors/ma/masa

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

434

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

揭秘MASA如何实现47.7% TETA分数：开放词汇多目标跟踪技术突破

核心突破：跨模态关联学习的技术跃迁

技术解析：SAM驱动的实例关联机制

[自监督特征学习]：无标注数据的价值挖掘

[双路径融合]：像素与实例的协同表达

[动态适配]：通用模型的领域落地

实践验证：从数据到部署的完整流程

📊 性能对比：全面领先的跟踪表现

🔍 数据集准备与测试流程

应用前景：开放词汇跟踪的未来方向

热门内容推荐

最新内容推荐

项目优选

揭秘MASA如何实现47.7% TETA分数：开放词汇多目标跟踪技术突破

核心突破：跨模态关联学习的技术跃迁

技术解析：SAM驱动的实例关联机制

[自监督特征学习]：无标注数据的价值挖掘

[双路径融合]：像素与实例的协同表达

[动态适配]：通用模型的领域落地

实践验证：从数据到部署的完整流程

📊 性能对比：全面领先的跟踪表现

🔍 数据集准备与测试流程

应用前景：开放词汇跟踪的未来方向

相关内容推荐

热门内容推荐

最新内容推荐

项目优选