pykan使用指南：从入门到精通Kolmogorov Arnold Networks

2026-03-15 04:18:19作者：余洋婵Anita

概念解析：KAN神经网络的核心原理

什么是KAN(一种基于样条函数的神经网络架构)

Kolmogorov Arnold Networks (KAN) 是一种融合经典数学理论与现代深度学习的新型神经网络架构。它基于1957年Kolmogorov提出的"任意连续函数可由单变量函数复合表示"的数学定理，结合Arnold的改进理论，构建出兼具高精度拟合能力和数学可解释性的网络结构。

与传统神经网络相比，KAN具有三大核心优势：

数学可解释性：网络结构直接映射数学函数组合
自适应表达能力：通过动态调整的样条函数捕捉复杂模式
稀疏连接特性：自动学习重要特征，减少冗余计算

KAN与传统神经网络的本质区别

传统神经网络(如MLP)使用固定的激活函数和密集连接方式，而KAN则采用了完全不同的设计理念：

特性	传统神经网络	KAN
激活机制	固定激活函数(ReLU等)	自适应B样条函数
连接方式	密集全连接	动态稀疏连接
可解释性	黑盒模型	数学符号可解释
参数优化	仅权重优化	权重+网格+基函数联合优化
数据效率	需要大量数据	小样本即可收敛

KAN的核心组成部分

一个完整的KAN模型包含四个关键组件：

B样条激活函数：通过可学习的网格点构建光滑曲线
自适应网格机制：根据数据分布动态调整采样点
稀疏连接结构：自动修剪不重要的连接路径
符号化解释模块：将网络行为转化为数学表达式

实践流程：从零开始使用pykan构建模型

3步完成pykan环境配置

🔍 步骤1：获取项目代码

# 克隆pykan项目仓库
git clone https://gitcode.com/GitHub_Trending/pyk/pykan
cd pykan

💡 步骤2：创建并激活虚拟环境

# 创建虚拟环境
python -m venv pykan-env

# 激活环境(Linux/macOS)
source pykan-env/bin/activate

# 激活环境(Windows)
pykan-env\Scripts\activate

⚠️ 步骤3：安装依赖与pykan

# 安装基础依赖
pip install torch numpy matplotlib scikit-learn

# 安装pykan
pip install -e .

常见问题速解

Q: 安装时出现PyTorch版本冲突怎么办？
A: 先卸载现有PyTorch: pip uninstall torch torchvision，然后安装指定版本: pip install torch==2.2.2

Q: 虚拟环境激活后找不到pykan模块？
A: 确保在项目根目录执行pip install -e .，安装开发模式

Q: Windows系统提示"无法加载激活脚本"？
A: 以管理员身份运行PowerShell，执行Set-ExecutionPolicy RemoteSigned更改执行策略

如何配置你的第一个KAN模型

KAN模型初始化需要平衡网络容量与计算效率，以下是基础配置示例：

from kan import MultKAN

# 初始化KAN模型
model = MultKAN(
    width=[2, 5, 1],  # 网络结构：2输入神经元，5隐藏神经元，1输出神经元
    grid=5,           # 样条网格数量，控制拟合精度
    k=3,              # 样条多项式阶数，3表示三次样条
    base_fun='silu',  # 基础激活函数类型
    grid_range=[-1, 1]# 输入数据范围
)

关键参数配置指南：

参数名称	作用	推荐值	适用场景
`width`	定义网络层结构	`[输入维度, 隐藏维度, 输出维度]`	根据任务复杂度调整
`grid`	控制样条分辨率	5	简单任务3-5，复杂任务7-10
`k`	样条多项式阶数	3	一般使用3(三次样条)
`noise_scale`	初始噪声水平	0.1	数据噪声大时适当增大
`sparse_init`	稀疏初始化	False	高维数据建议设为True

💡 设备配置技巧：

import torch

# 自动选择GPU或CPU
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)  # 将模型移动到指定设备

常见问题速解

Q: 如何确定隐藏层神经元数量？
A: 从输入维度的2-5倍开始尝试，复杂问题可逐步增加

Q: 网格数量(grid)设置过大有什么影响？
A: 会增加计算量并可能导致过拟合，建议从5开始，必要时再增大

Q: 什么情况下应该使用稀疏初始化？
A: 当输入特征维度超过20时，启用稀疏初始化可显著提高训练效率

数据准备与模型训练全流程

数据准备

pykan提供了灵活的数据创建工具，支持从数学函数或现有数据构建数据集：

from kan.utils import create_dataset
import torch

# 定义目标函数
def target_function(x):
    """创建一个包含正弦和指数的复合函数作为示例"""
    return torch.exp(torch.sin(torch.pi * x[:, [0]])) + x[:, [1]] ** 2

# 生成训练和测试数据
dataset = create_dataset(
    f=target_function,    # 目标函数
    n_var=2,              # 输入变量数量
    train_num=1000,       # 训练样本数
    test_num=200,         # 测试样本数
    ranges=[[-1, 1], [-2, 2]],  # 每个变量的取值范围
    normalize_input=True  # 输入数据归一化
)

模型训练

# 开始训练
model.fit(
    dataset=dataset,      # 训练数据集
    opt="LBFGS",          # 优化器选择
    steps=100,            # 训练步数
    lamb=0.001,           # 稀疏正则化系数
    update_grid=True,     # 启用网格自适应更新
    grid_update_num=10    # 网格更新次数
)

训练过程监控

# 评估模型性能
results = model.evaluate(dataset)
print(f"训练损失: {results['train_loss']:.6f}")
print(f"测试损失: {results['test_loss']:.6f}")

常见问题速解

Q: 训练不收敛怎么办？
A: 尝试降低学习率，增加网格数量，或检查数据是否正确归一化

Q: 如何判断模型是否过拟合？
A: 若训练损失远低于测试损失，可增大lamb值增强正则化

Q: LBFGS优化器和Adam哪个更好？
A: 小规模数据集优先用LBFGS，大数据集或在线学习用Adam

优化策略：提升KAN模型性能的实用技巧

正则化与剪枝：打造高效稀疏模型

KAN的核心优势之一是能够自动学习稀疏结构，通过正则化和剪枝可以进一步优化模型：

# 训练后剪枝
model.prune(
    node_th=1e-2,  # 节点剪枝阈值
    edge_th=3e-2   # 边剪枝阈值
)

# 剪枝后微调
model.fit(dataset, steps=30, lamb=0.0001)

正则化参数配置建议：

正则化类型	参数	推荐值	作用
稀疏正则化	`lamb`	0.001-0.01	控制整体连接稀疏度
L1正则化	`lamb_l1`	0.1-1.0	促进权重稀疏
熵正则化	`lamb_entropy`	1.0-5.0	平衡激活函数分布

💡 剪枝策略：先使用较高阈值快速移除明显冗余连接，再逐步降低阈值精细优化

常见问题速解

Q: 剪枝后模型性能下降怎么办？
A: 降低剪枝阈值或剪枝后进行短时间微调

Q: 如何确定合适的正则化系数？
A: 从较小值开始，当验证损失不再改善时增大正则化强度

Q: 稀疏模型有什么优势？
A: 减少计算量、提高推理速度、增强模型可解释性

网格优化：动态调整提升拟合精度

KAN的自适应网格机制是其区别于传统神经网络的关键特性：

# 自定义网格更新策略
model.fit(
    dataset=dataset,
    steps=50,
    update_grid=True,          # 启用网格更新
    grid_update_num=5,         # 更新次数
    grid_eps=0.5,              # 网格插值参数
    grid_range=[-1.5, 1.5]     # 扩展网格范围
)

网格参数调整策略：

初始阶段：使用较小网格(3-5)和较大网格范围，快速捕捉全局模式
中期阶段：增加网格数量(5-7)并缩小范围，聚焦重要区域
精细阶段：固定网格结构，优化样条系数

⚠️ 注意：网格数量并非越大越好，过多的网格会导致过拟合和计算效率下降

常见问题速解

Q: 网格更新频率如何设置？
A: 建议每20-50步更新一次，复杂函数可增加更新频率

Q: 网格范围如何确定？
A: 根据输入数据分布设置，通常比实际数据范围略宽10-20%

Q: 什么是grid_eps参数？
A: 控制网格均匀程度，0表示完全自适应数据分布，1表示完全均匀网格

应用案例：KAN在不同场景下的实践

案例一：函数拟合任务

对于数学函数逼近问题，KAN展现出优异的精度和可解释性：

# 定义一个复杂的目标函数
def complex_function(x):
    return torch.sin(x[:,[0]] * torch.pi) * torch.exp(-x[:,[1]]**2) + \
           torch.cos(x[:,[2]]) * x[:,[3]]

# 创建数据集
dataset = create_dataset(
    f=complex_function,
    n_var=4,                # 4个输入变量
    train_num=2000,
    test_num=500,
    ranges=[[-1,1]]*4       # 所有变量范围为[-1,1]
)

# 配置KAN模型
model = MultKAN(
    width=[4, 8, 1],        # 4输入，8隐藏神经元，1输出
    grid=7,                 # 增加网格数量提高拟合精度
    k=3,
    base_fun='silu'
)

# 分阶段训练
model.fit(dataset, steps=80, lamb=0.001, update_grid=True)
model.prune(node_th=1e-2)
model.fit(dataset, steps=40, lamb=0.0005, update_grid=False)

此案例中，KAN能够以高精确度逼近复杂函数，同时保持清晰的数学可解释性，这是传统神经网络难以实现的。

案例二：物理系统建模

KAN在物理系统建模方面有独特优势，能够从数据中学习物理规律：

# 物理系统建模示例
# 这里以模拟简谐振动系统为例

def harmonic_oscillator(x):
    """简谐振动系统：x0=位移, x1=速度, 返回下一时刻位移"""
    k = 0.5  # 弹性系数
    m = 1.0  # 质量
    dt = 0.1 # 时间步长
    
    acceleration = -k/m * x[:,[0]]
    next_velocity = x[:,[1]] + acceleration * dt
    next_position = x[:,[0]] + next_velocity * dt
    return next_position

# 创建物理系统数据集
dataset = create_dataset(
    f=harmonic_oscillator,
    n_var=2,
    train_num=1000,
    test_num=300,
    ranges=[[-2,2], [-1,1]]  # 位移范围[-2,2]，速度范围[-1,1]
)

# 配置适合物理系统的KAN模型
model = MultKAN(
    width=[2, 6, 1],
    grid=5,
    k=3,
    base_fun='silu',
    sparse_init=True  # 物理系统通常具有稀疏特性
)

# 训练模型
model.fit(
    dataset=dataset,
    steps=100,
    opt="LBFGS",
    lamb=0.001,
    lamb_entropy=2.0  # 增加熵正则化促进物理规律发现
)