Keras损失函数文档与实际行为差异解析

2025-04-30 13:56:59作者：翟萌耘Ralph

Keras 3 是一个深度学习框架，支持 JAX、TensorFlow 和 PyTorch 多后端。轻松构建和训练图像识别、自然语言处理、音频处理等模型。加速开发流程，利用易于调试的运行时环境。实现最先进的性能，某些情况下比其他框架快 20% 至 350%。兼容从笔记本到大规模 GPU 或 TPU 集群的训练。已有近三百万开发者，包括初创企业和全球企业，信赖并使用 Keras 3。通过 `pip install keras` 即可安装，选择所需后端，开始您的高效深度学习之旅！

项目地址：https://gitcode.com/gh_mirrors/ker/keras

在深度学习框架Keras的使用过程中，准确理解损失函数的行为对于模型训练至关重要。最近发现Keras官方文档中关于损失函数返回值的描述与实际实现存在不一致的情况，这可能会对开发者造成困惑。

问题背景

Keras官方文档明确指出："默认情况下，损失函数会为每个输入样本返回一个标量损失值"。然而在实际测试中发现，当向损失函数传递一个包含多个样本的批次数据时，返回的并不是每个样本的独立损失值，而是经过某种聚合后的结果。

实际行为分析

通过具体示例可以更清楚地看到这一现象：

import keras.ops as ops
from keras.losses import MeanSquaredError

loss_fn = MeanSquaredError()
loss = loss_fn(ops.zeros((2, 2)), ops.ones((2, 2)))
print(loss)  # 输出: <Array: shape=(2,), dtype=float32, numpy=array([1., 1.], dtype=float32)>

在这个例子中，我们传递了两个样本（形状为(2,2)的张量），但返回的是两个值，而不是预期的四个值（每个样本元素一个损失值）。这表明损失函数实际上在样本维度上进行了某种形式的聚合。

深入理解损失函数的reduction机制

Keras损失函数内部实现了一个重要的参数reduction，它控制着如何聚合多个样本的损失值：

reduction=None：返回每个样本的独立损失值
reduction="sum"：返回所有样本损失值的总和
reduction="mean"（默认值）：返回所有样本损失值的平均值

文档中描述的行为实际上对应的是reduction=None的情况，而默认实现使用的是reduction="mean"，这导致了文档与实际行为的不一致。

正确使用建议

开发者在使用Keras损失函数时应注意：

如果需要获取每个样本的独立损失值，应显式设置reduction=None
在自定义训练循环时，明确了解损失函数的聚合行为
对于多输出模型，注意损失聚合的层级关系

对框架设计的思考

这一现象反映了深度学习框架设计中一个常见的权衡：默认行为应该倾向于方便性还是精确性。Keras选择默认进行均值聚合，这符合大多数训练场景的需求，但文档描述应当与实际行为保持一致，以避免混淆。

理解这些底层细节有助于开发者更精准地控制模型训练过程，特别是在实现复杂损失函数或自定义训练流程时。

keras

项目地址：https://gitcode.com/gh_mirrors/ker/keras

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.13 K

631

ascend-transformer-boost

本项目是CANN提供的是一款高效、可靠的Transformer加速库，基于华为Ascend AI处理器，提供Transformer定制化场景的高性能融合算子。