MONAI项目中PatchInferer与AvgMerger结合使用时的NaN问题分析
问题背景
在MONAI医学影像分析框架中,PatchInferer是一个常用的推理工具,它通过将大尺寸图像分割成小块(patch)进行处理,然后再将结果合并回原图尺寸。当PatchInferer与AvgMerger(默认的合并器)结合使用时,如果同时指定了filter_fn(过滤函数),在某些情况下会导致输出结果中出现NaN(非数值)值。
问题原理
这个问题的根源在于AvgMerger的工作机制。AvgMerger在合并patch时,会维护两个张量:
- values张量:存储所有patch值的累加和
- counts张量:记录每个位置被累加的次数
在最终合并阶段(finalize方法),AvgMerger会将values张量除以counts张量来得到平均值。当filter_fn过滤掉某些区域时,这些区域对应的counts值为0,导致除零操作,从而产生NaN。
问题复现
以下是一个简单的复现代码示例:
from monai.inferers.splitter import SlidingWindowSplitter
from monai.inferers.inferer import PatchInferer
import torch
H,W = 512,512
def filter_fn(x,location):
if location[1]>H//2:
return False
return True
splitter = SlidingWindowSplitter(
(128,128),
overlap=0,
offset=0,
filter_fn=filter_fn
)
inferer = PatchInferer(splitter)
inputs = torch.randn((1,1,H,W))
outputs = inferer(inputs=inputs, network=lambda x: x)
在这个例子中,filter_fn过滤掉了图像下半部分的所有patch,导致这些区域在合并时counts为0,最终输出中对应位置会出现NaN。
解决方案探讨
针对这个问题,有几种可能的解决方案:
-
预处理counts张量:在finalize方法中,可以将counts为0的位置设置为1,这样除法的结果将为0。这种方法简单直接,但可能会掩盖真实的问题。
-
使用极小值替代:对于被过滤的区域,可以使用torch.finfo(self.values.dtype).min这样的极小值来替代,保持数值连续性。
-
修改filter_fn逻辑:确保filter_fn不会完全过滤掉某些区域,或者在这些区域提供默认值。
-
异常处理:在finalize方法中加入对counts为0情况的特殊处理,根据应用场景选择合适的替代值。
最佳实践建议
在实际使用PatchInferer时,建议:
- 仔细设计filter_fn函数,确保不会完全过滤掉连续的大区域
- 考虑使用自定义的Merger类来处理特殊情况
- 在结果后处理阶段检查NaN值,确保模型输出的可靠性
- 对于医学影像等关键应用,NaN值可能表示严重问题,应该明确处理而非简单掩盖
这个问题提醒我们,在使用分块处理大图像时,需要特别注意边缘情况和特殊过滤条件对最终结果的影响。合理的错误处理和数值稳定性设计是确保算法可靠性的关键。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0150- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0111