关于KAN神经网络在常规NN中集成的边界问题探讨

2025-05-14 07:19:14作者：苗圣禹Peter

Kolmogorov Arnold Networks

项目地址：https://gitcode.com/GitHub_Trending/pyk/pykan

引言

在深度学习领域，Kolmogorov-Arnold Networks(KAN)作为一种新型网络架构，因其独特的基于样条函数的激活函数而备受关注。然而，在实际应用中，特别是在将KAN作为常规神经网络的隐藏层使用时，我们发现其输入范围限制可能带来严重的性能问题。本文将深入分析这一问题，并探讨可能的解决方案。

KAN的边界限制问题

KAN网络的核心在于使用B样条作为激活函数，这些样条函数通常定义在固定的区间内（如[-1,1]）。当输入数据超出这个预设范围时，网络性能会显著下降。实验表明：

在[-1.25,1.25]范围内，KAN可能无法保持稀疏性
当范围扩大到[-2,2]时，即使增加网格密度(grid=20)，性能仍然不佳
对于非常小的标准差(std=0.00000001)的数据分布，需要特殊处理

问题根源分析

这一问题的本质在于B样条函数的局部支撑特性。每个B样条基函数只在有限的区间内非零，当输入超出定义域时：

网络无法正确计算激活值
梯度传播可能中断
训练过程变得不稳定

现有解决方案比较

1. 动态网格调整

KAN提供了update_grid_from_sample方法，可以在训练过程中动态调整网格范围。这种方法相当于对输入进行线性变换f(kx+b)，使数据适应样条定义域。但需要注意：

需要定期执行（如每几个epoch）
在大规模网络中可能增加计算开销
对极端值分布效果有限

2. 数据标准化预处理

常规的标准化方法包括：

Z-score标准化（均值0，方差1）
Min-Max标准化到[-1,1]区间
基于3σ原则的截断处理

但对于深度网络中的隐藏层输出，标准化可能带来新的挑战：

批量归一化的不稳定性
层间标准化的一致性
反向传播的梯度变化

3. 边界扩展技术

几种边界处理方案对比：

线性外推：在边界外保持端点斜率不变
多项式外推：使用高阶多项式延续
反射边界：镜像反射边界行为
周期延拓：适用于周期性函数

进阶解决方案探讨

自适应范围KAN

可以考虑开发自适应范围的KAN变体：

动态调整样条定义域
自动检测输入分布变化
结合鲁棒统计量进行范围估计

混合激活架构

将KAN与传统激活函数结合：

边界外使用ReLU等无界函数
边界内保持样条精确性
平滑过渡区域设计

实践建议

对于实际应用中的KAN集成：

始终监控输入分布
实现自动范围调整机制
考虑网络深度与标准化策略的协同
针对特定任务选择合适的边界处理方式

结论

KAN网络在常规NN中的集成确实面临边界挑战，但通过合理的预处理、动态调整和架构改进，这些问题是可以克服的。未来研究可以关注更智能的自适应机制，使KAN在各种网络深度和复杂场景下都能保持优异性能。

Kolmogorov Arnold Networks

项目地址：https://gitcode.com/GitHub_Trending/pyk/pykan

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解