nnUNet项目CPU推理模式问题分析与解决方案

2025-06-02 02:25:08作者：昌雅子Ethen

项目地址：https://gitcode.com/gh_mirrors/nn/nnUNet

问题背景

在nnUNet项目的最新版本中，用户在进行CPU推理时遇到了一个关键错误。当尝试使用滑动窗口预测方法处理医学影像数据时，系统会抛出"Inplace update to inference tensor outside InferenceMode is not allowed"的运行时错误。这个问题主要影响以下三种使用场景：

纯CPU推理模式
GPU推理但设置perform_everything_on_device为True的情况
GPU推理但设置perform_everything_on_device为False的情况（大图像处理常见场景）

技术原理分析

该问题的根源在于PyTorch 2.0引入的InferenceMode机制与nnUNet滑动窗口预测实现的交互问题。具体表现为：

nnUNet在滑动窗口预测中使用了torch.inference_mode()上下文管理器，这会创建特殊的推理张量
在CPU上处理时，张量转换(to('cpu'))操作不会自动克隆张量，导致推理模式张量被保留
后续对这些张量进行原地操作时，PyTorch的安全机制会阻止这种操作

解决方案演进

开发团队经过多次讨论和测试，最终确定了最优解决方案：

初步方案：简单地在每次预测后添加.clone()操作，但这会导致GPU推理性能下降
改进方案：根据perform_everything_on_device标志决定是否克隆，但未能覆盖所有边界情况
最终方案：检查张量是否处于InferenceMode，仅在需要时执行克隆操作

实现细节

最优解决方案的核心代码如下：

pred = self.predict_sliding_window_return_logits(data).to('cpu')
if pred.is_inference():  # 仅在需要时克隆
    pred = pred.clone()

if prediction is None:
    prediction = pred
else:
    prediction += pred

这种方法具有以下优点：