TorchMetrics中CLIPScore对长文本处理的缺陷与修复方案

2025-07-03 11:33:36作者：盛欣凯Ernestine

问题背景

在计算机视觉与自然语言处理交叉的多模态领域，CLIPScore已成为评估图像与文本匹配程度的重要指标。TorchMetrics作为PyTorch生态中的度量标准库，提供了CLIPScore的实现。然而，近期发现当输入文本超过77个token时，CLIPScore计算结果会出现异常下降。

问题现象

当使用TorchMetrics 1.6.0版本的CLIPScore模块时，可以观察到以下现象：

对于74个token的文本，得分为27.40
对于75个token的文本，得分降至26.16
当token数达到76个时，得分骤降至16.97

这种断崖式下降显然不符合预期，因为文本长度的微小增加不应导致匹配分数的大幅降低。

技术分析

CLIP模型限制

CLIP模型基于Transformer架构，其文本编码器对输入长度有明确限制。以"openai/clip-vit-base-patch16"为例，其最大位置嵌入(max_position_embeddings)默认为77。这意味着：

模型最多只能处理77个token的输入
超出部分需要被截断或特殊处理

现有实现的问题

当前TorchMetrics的实现中，当文本超过最大长度时，简单地截取前77个token。这种处理方式存在两个问题：

丢失了文本末尾的重要信息
截断位置可能破坏语义完整性

改进方案

通过修改截断策略，保留最后一个token可以显著改善结果：

对于76个token的文本，得分从16.97恢复到26.16
保持了与75个token时的一致性

这种改进基于以下技术考量：

文本结尾通常包含关键信息
保持[EOS]结束标记的完整性
更符合自然语言处理中的截断最佳实践

解决方案实现

改进后的核心代码如下：

max_position_embeddings = model.config.text_config.max_position_embeddings
if processed_input["attention_mask"].shape[-1] > max_position_embeddings:
    # 创建保留最后token的掩码
    mask = torch.arange(processed_input["attention_mask"].shape[-1]) < max_position_embeddings - 1
    mask[-1] = True  # 强制保留最后一个token
    
    # 应用掩码
    processed_input["attention_mask"] = processed_input["attention_mask"][..., mask]
    processed_input["input_ids"] = processed_input["input_ids"][..., mask]