BoxMot项目v12.0.8版本发布:BoostTrack LMBN优化与多目标跟踪性能提升
BoxMot是一个专注于多目标跟踪(Multi-Object Tracking, MOT)的开源项目,提供了多种先进的跟踪算法实现。该项目特别关注实时性能与跟踪准确性的平衡,为计算机视觉领域的研究人员和开发者提供了强大的工具集。
版本核心更新内容
本次v12.0.8版本主要围绕BoostTrack算法进行了多项优化和改进,同时修复了一些关键问题,提升了整体跟踪性能。
1. LMBN预处理问题修复
开发团队修复了LMBN(Lightweight Multi-Branch Network)预处理过程中存在的一个关键bug。LMBN是一种轻量级的多分支网络结构,广泛应用于行人重识别(ReID)任务中。预处理阶段的bug修复确保了特征提取的准确性,从而提高了后续跟踪关联的质量。
2. BoostTrack算法清理与优化
BoostTrack作为BoxMot项目中的一种高效跟踪算法,在此版本中进行了代码清理和优化。这些改进不仅提升了代码的可读性和可维护性,还可能带来性能上的微小提升。BoostTrack算法通过结合运动信息和外观特征,在多目标跟踪任务中表现出色。
3. ECC算法收敛问题修复
针对ECC(Enhanced Correlation Coefficient)算法在处理差异过大图像时不收敛的问题,开发团队提供了修复方案。ECC算法在视觉跟踪中常用于图像对齐和运动估计,这一修复增强了算法在复杂场景下的鲁棒性。
4. 模型权重更新
本次更新中,团队将默认的基准测试模型从osnet_x1_0_dukemtmcreid.pt
更换为lmbn_n_duke.pt
。这一变更基于LMBN网络在多项指标上的优势表现,特别是在HOTA、MOTA和IDF1等关键跟踪评估指标上。
性能基准对比
以下是使用lmbn_n_duke.pt
模型权重时,BoxMot中各种跟踪算法在标准测试集上的性能表现:
跟踪算法 | HOTA↑ | MOTA↑ | IDF1↑ | FPS |
---|---|---|---|---|
BoostTrack | 69.015 | 75.957 | 82.538 | 25 |
BOTSORT | 68.367 | 78.321 | 80.7 | 46 |
StrongSORT | 68.038 | 76.142 | 80.731 | 17 |
ByteTrack | 67.68 | 78.039 | 79.157 | 1265 |
DeepOCSORT | 67.509 | 75.83 | 79.976 | 12 |
OCSORT | 66.441 | 74.548 | 77.899 | 1483 |
Improved Association | 64.122 | 76.587 | 71.094 | 26 |
从数据可以看出,BoostTrack在HOTA和IDF1指标上表现最佳,体现了其在跟踪准确性和身份保持方面的优势。而ByteTrack和OCSORT则在处理速度(FPS)上遥遥领先,适合对实时性要求极高的应用场景。
技术细节解析
LMBN网络的优势
LMBN(Lightweight Multi-Branch Network)相比传统的OSNet具有以下优势:
- 更轻量化的网络结构,减少计算资源消耗
- 多分支设计能够捕捉不同层次的特征表示
- 在行人重识别任务中表现出更好的特征判别能力
- 更适合部署在资源受限的边缘设备上
ECC算法的改进意义
ECC算法在视觉跟踪中主要用于:
- 图像对齐和运动估计
- 处理相机运动和视角变化
- 提高特征匹配的准确性
修复后的ECC算法能够更好地处理以下场景:
- 快速运动导致的帧间差异过大
- 光照条件剧烈变化
- 部分遮挡情况下的跟踪恢复
实际应用建议
根据本次更新的性能数据,我们为不同应用场景提供以下算法选择建议:
-
高精度场景:优先考虑BoostTrack或BOTSORT,它们在HOTA和IDF1指标上表现优异,适合对跟踪准确性要求高的应用,如安防监控、行为分析等。
-
实时性要求高的场景:ByteTrack和OCSORT提供了极高的处理速度,适合需要处理高帧率视频或部署在计算资源有限的设备上。
-
平衡型应用:StrongSORT和DeepOCSORT在精度和速度之间取得了较好的平衡,适合大多数通用跟踪场景。
总结
BoxMot v12.0.8版本通过多项优化和修复,进一步提升了多目标跟踪的整体性能。特别是BoostTrack算法配合LMBN网络的使用,在跟踪准确性方面展现了明显优势。开发团队对ECC算法的改进也增强了系统在复杂场景下的鲁棒性。这些改进使得BoxMot继续保持为多目标跟踪领域最先进的开源解决方案之一。
- DDeepSeek-V3.1-BaseDeepSeek-V3.1 是一款支持思考模式与非思考模式的混合模型Python00
- QQwen-Image-Edit基于200亿参数Qwen-Image构建,Qwen-Image-Edit实现精准文本渲染与图像编辑,融合语义与外观控制能力Jinja00
GitCode-文心大模型-智源研究院AI应用开发大赛
GitCode&文心大模型&智源研究院强强联合,发起的AI应用开发大赛;总奖池8W,单人最高可得价值3W奖励。快来参加吧~042CommonUtilLibrary
快速开发工具类收集,史上最全的开发工具类,欢迎Follow、Fork、StarJava03GitCode百大开源项目
GitCode百大计划旨在表彰GitCode平台上积极推动项目社区化,拥有广泛影响力的G-Star项目,入选项目不仅代表了GitCode开源生态的蓬勃发展,也反映了当下开源行业的发展趋势。06GOT-OCR-2.0-hf
阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00openHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!C0295- WWan2.2-S2V-14B【Wan2.2 全新发布|更强画质,更快生成】新一代视频生成模型 Wan2.2,创新采用MoE架构,实现电影级美学与复杂运动控制,支持720P高清文本/图像生成视频,消费级显卡即可流畅运行,性能达业界领先水平Python00
- GGLM-4.5-AirGLM-4.5 系列模型是专为智能体设计的基础模型。GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力,以满足智能体应用的复杂需求Jinja00
Yi-Coder
Yi Coder 编程模型,小而强大的编程助手HTML013
热门内容推荐
最新内容推荐
项目优选









