TorchMetrics中列表状态导致的内存泄漏问题分析

2025-07-03 14:54:33作者：薛曦旖Francesca

问题背景

在使用TorchMetrics库开发自定义指标时，开发者发现当使用列表(list)作为Metric状态(state)时，会出现内存泄漏问题。具体表现为当Metric.reset()方法被调用时，列表中的Tensor元素没有被正确释放，导致内存持续增长。

问题复现

通过一个简单的DummyListMetric示例可以复现这个问题：

import torch
from torchmetrics import Metric

class DummyListMetric(Metric):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.add_state("x", default=[])

    def update(self, x=None):
        x = torch.tensor(1) if x is None else x
        self.x.append(x)

在这个示例中，每次调用update方法都会向列表x中添加一个新的Tensor。当reset方法被调用时，预期是清空列表并释放所有Tensor内存，但实际上内存没有被正确释放。

问题根源分析

问题的根源在于TorchMetrics的reset实现方式。当前实现中，reset方法只是简单地将状态属性重新赋值为默认值(空列表)，而没有显式地清空原有列表。这导致Python的垃圾回收机制无法及时释放列表中的Tensor对象。

具体来看，Metric.reset()方法的当前实现是：

def reset(self):
    for attr in self._defaults:
        current_val = getattr(self, attr)
        if isinstance(current_val, (Tensor, list)):
            setattr(self, attr, self._defaults[attr])

这种方法对于Tensor状态是有效的，因为直接替换Tensor会触发PyTorch的内存管理机制。但对于列表状态，仅仅替换列表引用而不清空原列表内容，会导致原列表中的Tensor对象仍然被引用而无法释放。

解决方案

针对这个问题，开发者提出了一个有效的解决方案：在reset方法中，对于列表类型的状态，先调用clear()方法清空列表内容，然后再进行重置。这样可以确保列表中的所有Tensor对象都被正确释放。

具体实现可以修改为：

def reset(self):
    for attr in self._defaults:
        current_val = getattr(self, attr)
        if isinstance(current_val, Tensor):
            setattr(self, attr, self._defaults[attr])
        elif isinstance(current_val, list):
            current_val.clear()  # 显式清空列表内容