Keras项目中Discretization层在模型预测时的行为差异分析

2025-04-29 07:16:46作者：牧宁李

Keras 3 是一个深度学习框架，支持 JAX、TensorFlow 和 PyTorch 多后端。轻松构建和训练图像识别、自然语言处理、音频处理等模型。加速开发流程，利用易于调试的运行时环境。实现最先进的性能，某些情况下比其他框架快 20% 至 350%。兼容从笔记本到大规模 GPU 或 TPU 集群的训练。已有近三百万开发者，包括初创企业和全球企业，信赖并使用 Keras 3。通过 `pip install keras` 即可安装，选择所需后端，开始您的高效深度学习之旅！

项目地址：https://gitcode.com/gh_mirrors/ker/keras

问题背景

在Keras深度学习框架中，Discretization预处理层用于将连续数值特征转换为离散区间。最近发现一个有趣的现象：当使用该层构建模型时，直接调用模型对象与使用predict方法会产生不同的输出结果。

现象重现

通过一个简单的代码示例可以清晰地观察到这一现象：

import tensorflow as tf
import keras

# 创建Discretization层
layer = keras.layers.Discretization(
    bin_boundaries=[-0.5, 0, 0.1, 0.2, 3],
    name="bucket",
    output_mode="int",
)

# 测试数据
x = tf.constant([[0.0, 0.15, 0.21, 0.3], [0.0, 0.17, 0.451, 7.8]])

# 构建模型
inputs = keras.layers.Input(name="inp", dtype="float32", shape=(4,))
model_output = layer(inputs)
model = keras.models.Model(inputs=[inputs], outputs=[model_output])

三种调用方式产生不同结果：

直接调用层对象：

layer(x)
# 输出: [[2, 3, 4, 4], [2, 3, 4, 5]]

直接调用模型：

model(x)
# 输出: [[2, 3, 4, 4], [2, 3, 4, 5]]

使用predict方法：

model.predict(x)
# 输出: [[2, 2, 2, 2], [2, 2, 2, 5]]

技术分析

这种差异源于Keras执行模式的不同：

直接调用：在TensorFlow 2.x中默认使用即时执行模式(Eager Execution)，计算立即发生，结果直观可见。
predict方法：使用图执行模式(Graph Execution)，计算首先构建计算图，然后执行。这种模式下，某些预处理层的实现可能表现不同。

Discretization层在图模式下可能无法正确维护其内部状态，导致分箱边界应用不一致。特别是对于中间值(如0.15, 0.21等)，predict方法产生了错误的分箱结果。

解决方案

目前有以下几种解决方法：

强制使用即时执行模式：

tf.config.run_functions_eagerly(True)

使用底层API实现：

def discretize(x):
    return tf.raw_ops.Bucketize(input=x, boundaries=bin_boundaries)

inputs = keras.layers.Input(name="inp", dtype="float32", shape=(4,))
model_output = keras.layers.Lambda(discretize, output_shape=(4,))(inputs)
model = keras.models.Model(inputs=[inputs], outputs=[model_output])