Co-tracker项目中查询点坐标类型问题的技术解析

2025-06-14 21:53:54作者：袁立春Spencer

问题背景

在使用Facebook Research团队开发的co-tracker进行手部关键点跟踪时，开发者遇到了一个看似简单但容易忽视的问题：当使用整数类型的查询点坐标时，模型返回的跟踪结果与预期不符，特别是y坐标出现了明显偏差。

问题现象

开发者在使用co-tracker跟踪视频中左右手的中心点时，观察到以下现象：

输入查询点坐标（示例）：
- 左手中心：[421.51556396, 204.86727905]
- 右手中心：[206.09725952, 265.58895874]
模型返回的第一帧跟踪结果：
- 左手跟踪点：[421.0000, 152.8668]
- 右手跟踪点：[206.0000, 198.5770]

从结果可以看出，x坐标基本保持了输入值（取整后），但y坐标出现了显著偏差，这与预期不符。

问题根源

经过分析，问题的根本原因在于查询点坐标的数据类型。开发者最初将查询点坐标转换为整数类型（使用.int()），而实际上co-tracker模型期望接收浮点数类型的坐标输入。

技术原理

在计算机视觉和深度学习领域，坐标点的表示通常有以下几种方式：

整数坐标：适用于像素级精确定位，常用于离散的像素索引
浮点坐标：适用于亚像素级精确定位，能够表示更精确的位置

co-tracker作为先进的视觉跟踪模型，其内部计算基于浮点运算，能够处理亚像素级的精确定位。当输入坐标被强制转换为整数时，会导致两个问题：

精度损失：小数部分被截断，丢失了原始坐标的精确信息
计算偏差：模型内部的反卷积、插值等操作在整数坐标上会产生非预期的结果

解决方案

解决方法非常简单：确保查询点坐标保持浮点数类型。具体修改如下：

# 修改前（错误）
cotracker_queries = torch.tensor(
    [[0, *left_hand_center], [0, *right_hand_center]]
).int()  # 强制转换为整数

# 修改后（正确）
cotracker_queries = torch.tensor(
    [[0, *left_hand_center], [0, *right_hand_center]]
).float()  # 保持浮点数类型