nnUNetv2 中提前终止训练后的最佳模型配置方法

2025-06-02 09:30:11作者：廉彬冶Miranda

项目地址：https://gitcode.com/gh_mirrors/nn/nnUNet

背景介绍

在医学图像分割领域，nnUNet是一个广泛使用的框架。从nnUNetv1升级到v2版本后，一些操作流程发生了变化，特别是在训练过程中提前终止后的模型配置方面。本文将详细介绍在nnUNetv2中如何正确处理提前终止训练后的最佳模型选择问题。

问题核心

当使用nnUNetv2进行2D和3D全分辨率分割模型训练时，如果训练过程被提前终止，用户需要手动配置以获得最佳模型集成。在nnUNetv1中，这通常只需要将每个fold目录中的checkpoint_best.pth重命名为checkpoint_final.pth即可。但在v2版本中，这一流程发生了变化。

解决方案

验证文件夹的生成

在nnUNetv2中，每个fold目录下会有一个validation文件夹，这是用于存储验证结果的关键目录。需要注意的是：

即使使用了--npz参数，这些验证文件也不会在训练过程中自动生成
验证文件只在"最终验证"阶段才会被创建

正确的处理步骤

恢复训练并执行验证：使用以下命令格式恢复训练并执行验证：
```
CUDA_VISIBLE_DEVICES=0 nnUNetv2_train [DATASET_ID] [PLAN_NAME] [FOLD_NUMBER] --npz --val --val_best -devices cuda
```
参数说明：
- --val：跳过训练直接进行验证
- --val_best：确保使用checkpoint_best而不是checkpoint_final进行验证

训练器选择：如果需要更改训练周期数（例如从299周期改为300周期），可以使用：

CUDA_VISIBLE_DEVICES=0 nnUNetv2_train [DATASET_ID] [PLAN_NAME] [FOLD_NUMBER] --npz -devices cuda -c -tr nnUNetTrainer_300epochs.py

注意事项

虽然上述方法可行，但这并不是nnUNet推荐的标准使用方式
最佳实践是让训练完整运行到预设的周期数
提前终止可能会影响模型的最终性能评估

总结

在nnUNetv2中处理提前终止训练的情况时，关键在于正确使用--val和--val_best参数来生成必要的验证文件。这种方法虽然可行，但开发者仍建议用户尽可能让训练完整执行以获得最佳模型性能。对于医学图像分割任务，模型的完整训练和验证流程对于确保分割结果的准确性和可靠性至关重要。

nnUNet

项目地址：https://gitcode.com/gh_mirrors/nn/nnUNet

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统