DeepLabCut中Transformer re-ID训练中的np.nanmean函数问题分析
2025-06-09 13:17:08作者:柏廷章Berta
问题背景
在DeepLabCut项目的PyTorch引擎中,当使用Transformer进行re-ID(重识别)训练时,发现了一个关键函数query_feature_by_coord_in_img_space()存在潜在问题。该函数用于在图像空间中通过坐标匹配特征,是创建训练三元组(triplets)的重要环节。
问题现象
原始代码中使用了np.nanmean来计算坐标差异的平均值,然后通过np.argmin寻找最小差异的索引。但在实际运行中,当存在全NaN的切片时,np.nanmean会产生警告并返回NaN值,导致np.argmin错误地选择了第一个NaN值对应的索引,而非真正的最小差异索引。
技术细节分析
-
输入数据结构:
coordinates:形状为(10,9,2)的数组,表示10个动物每个有9个关键点的坐标ref_coord:形状为(9,2)的数组,表示参考坐标
-
问题重现:
- 计算坐标差异时,大量值被设置为NaN
- 当某个动物的所有坐标差异都为NaN时,
np.nanmean无法计算有效均值 np.argmin遇到NaN时会错误地选择第一个NaN位置
-
影响范围:
- 导致特征匹配错误
- 进而影响三元组数据的质量
- 最终导致re-ID模型的训练准确率仅能达到50-60%
解决方案
使用np.ma.masked_invalid包装np.nanmean的结果,可以正确处理全NaN的情况:
def query_feature_by_coord_in_img_space(feature_dict, frame_id, ref_coord):
features = feature_dict[frame_id]["features"]
coordinates = feature_dict[frame_id]["coordinates"]
diff = coordinates - ref_coord
diff[np.where(np.logical_or(diff > 9000, diff < 0))] = np.nan
masked_means = np.ma.masked_invalid(np.nanmean(diff, axis=(1, 2)))
match_id = np.argmin(masked_means)
return features[match_id]
修复效果
修复后,Transformer re-ID模型的训练效果显著提升:
-
小规模训练集(1000个三元组):
- 训练准确率从~65%提升至97-98%
- 测试准确率从~55%提升至96%
-
大规模训练集(10000个三元组):
- 训练准确率达到100%
- 测试准确率同样达到100%
技术启示
- 在处理包含NaN值的数组运算时,需要特别注意全NaN切片的情况
- NumPy的masked数组提供了更安全的NaN处理机制
- 特征匹配算法的准确性对后续模型训练有决定性影响
- 在计算机视觉任务中,数据预处理环节的微小错误可能导致模型性能的显著下降
这个问题展示了在深度学习流程中,即使是很小的数值处理细节,也可能对最终模型性能产生重大影响。开发者在实现类似功能时,应当特别注意边缘情况和异常值的处理。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0215
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0138
uni-appA cross-platform framework using Vue.jsJavaScript08
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
热门内容推荐
项目优选
收起
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
470
465
暂无描述
Dockerfile
778
5.08 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
876
2.03 K
Ascend Extension for PyTorch
Python
758
968
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
697
1.4 K
昇腾LLM分布式训练框架
Python
185
231
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.1 K
1.14 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
271
JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。
Python
2.25 K
677