Keras项目中卷积层激活函数序列化问题解析

2025-04-29 15:36:37作者：侯霆垣

Keras 3 是一个深度学习框架，支持 JAX、TensorFlow 和 PyTorch 多后端。轻松构建和训练图像识别、自然语言处理、音频处理等模型。加速开发流程，利用易于调试的运行时环境。实现最先进的性能，某些情况下比其他框架快 20% 至 350%。兼容从笔记本到大规模 GPU 或 TPU 集群的训练。已有近三百万开发者，包括初创企业和全球企业，信赖并使用 Keras 3。通过 `pip install keras` 即可安装，选择所需后端，开始您的高效深度学习之旅！

项目地址：https://gitcode.com/gh_mirrors/ker/keras

在Keras深度学习框架中，卷积层(Conv1D/Conv2D/Conv3D等)支持通过activation参数指定激活函数。开发者通常可以使用字符串标识符(如"relu")或直接使用激活层实例(如layers.ReLU())来配置激活函数。然而，当使用激活层实例时，模型的序列化与反序列化过程会出现问题。

问题本质

Keras的BaseConv基类及其派生类(如Conv1D)在序列化激活函数时存在设计缺陷。当使用激活层实例(而非字符串标识符)时，get_config()方法生成的配置信息无法被from_config()方法正确解析。

具体表现为：

使用字符串标识符(如"relu")时，序列化和反序列化工作正常
使用激活层实例(如layers.ReLU())时，反序列化会抛出异常，提示无法解释激活函数标识符

技术背景

在Keras中，层的序列化机制依赖于get_config()和from_config()方法。对于激活函数的处理：

字符串标识符通过activations.get()转换为对应的激活函数
激活层实例理论上应该通过keras.saving模块的序列化机制处理

当前实现的问题在于BaseConv类中：

get_config()直接存储activation属性
from_config()尝试使用activations.deserialize()反序列化
但activations.deserialize()无法处理已经序列化的层实例配置

解决方案

正确的实现方式应该是：

在get_config()中使用saving.serialize_keras_object()序列化激活函数
在from_config()中使用saving.deserialize_keras_object()反序列化

这种改进方案具有以下优点：

保持对字符串标识符的兼容性
支持完整的激活层实例序列化
允许使用带参数的激活函数(如LeakyReLU的negative_slope)

实际应用

开发者可以通过继承BaseConv类并重写相关方法来实现临时解决方案。例如创建一个自定义的MyBaseConv类，在其中实现正确的序列化逻辑。这种方法虽然可行，但更期待官方在基础类中修复此问题。

影响范围

此问题影响所有使用激活层实例作为卷积层activation参数的情况，特别是需要以下功能的场景：

使用带参数的激活函数(如LeakyReLU)
需要保存和加载模型配置
使用自定义激活层

总结

Keras卷积层的激活函数序列化机制在处理层实例时存在不足，这限制了框架的灵活性。通过使用Keras的完整序列化机制而非仅依赖activations模块，可以解决这一问题，为开发者提供更强大的模型配置能力。

Keras 3 是一个深度学习框架，支持 JAX、TensorFlow 和 PyTorch 多后端。轻松构建和训练图像识别、自然语言处理、音频处理等模型。加速开发流程，利用易于调试的运行时环境。实现最先进的性能，某些情况下比其他框架快 20% 至 350%。兼容从笔记本到大规模 GPU 或 TPU 集群的训练。已有近三百万开发者，包括初创企业和全球企业，信赖并使用 Keras 3。通过 `pip install keras` 即可安装，选择所需后端，开始您的高效深度学习之旅！

项目地址：https://gitcode.com/gh_mirrors/ker/keras

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统