Marigold项目训练中出现NaN损失值的分析与解决方案

2025-06-29 22:02:18作者：齐冠琰

问题现象分析

在Marigold项目的模型训练过程中，部分开发者遇到了损失值突然变为NaN的情况。这种现象通常表现为：

当使用相同分辨率的图像进行训练时，损失值可能直接降为0
即使将学习率降低到原来的十分之一，问题仍然存在
训练过程中突然出现NaN值导致训练中断

根本原因探究

经过技术分析，这类问题通常由以下几个关键因素导致：

输入数据异常：训练数据集中包含NaN值是最常见的原因。这些异常值可能来自：
- 图像预处理过程中的计算错误
- 数据存储或加载时的损坏
- 传感器采集的原始数据本身就包含无效值
数值不稳定：某些网络层（如归一化层）在特定输入下可能产生数值不稳定问题
梯度爆炸：虽然降低学习率可以缓解，但根本原因可能是网络结构或初始化问题

解决方案与最佳实践

数据检查与清洗

实现数据完整性检查脚本：

import numpy as np
import torch

def check_data_integrity(dataloader):
    for batch in dataloader:
        if torch.isnan(batch).any():
            print("发现NaN值！")
            return False
    return True

添加数据预处理时的异常值处理：
- 使用np.nan_to_num()替换NaN值
- 设置合理的像素值范围限制

训练稳定性增强

梯度裁剪：

torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

使用更稳定的损失函数变体
添加微小的epsilon值防止除零错误

调试建议

逐步缩小数据集范围定位问题样本
使用torch.autograd.detect_anomaly()进行实时检测
监控中间层输出的数值范围

预防措施

建立数据质量检查流程
在数据加载器中添加自动修复逻辑
实现训练过程的数值监控系统

通过以上方法，开发者可以有效解决Marigold项目中出现的NaN损失值问题，确保训练过程的稳定性。值得注意的是，这类问题往往不是单一因素导致，需要系统性地排查和验证。

Marigold

Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

项目地址：https://gitcode.com/gh_mirrors/ma/Marigold

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.21 K

660