在pykan项目中训练自定义回归数据集的注意事项

2025-05-14 10:03:50作者：温玫谨Lighthearted

在使用pykan项目进行回归任务训练时，正确准备和加载数据集是至关重要的第一步。本文将从技术角度详细分析如何为pykan模型准备回归数据集，并避免常见的错误。

数据集结构要求

pykan模型对输入数据集有明确的结构要求。回归任务的数据集应该是一个字典，包含四个关键元素：

train_input: 训练集输入特征
train_label: 训练集目标值
test_input: 测试集输入特征
test_label: 测试集目标值

每个元素都应该是PyTorch张量(torch.Tensor)格式。在创建数据集时，最常见的错误是训练集和测试集的维度不匹配或数据切片错误。

数据准备的正确方法

正确的数据集准备流程应该遵循以下步骤：

数据分割：首先将原始数据分割为训练集和测试集
转换为张量：然后将NumPy数组转换为PyTorch张量
构建字典：最后按照要求的结构构建数据集字典

# 正确的数据集准备示例
import torch
import numpy as np
from sklearn.model_selection import train_test_split

# 假设X是特征，y是目标值
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

dataset = {
    'train_input': torch.from_numpy(X_train),
    'test_input': torch.from_numpy(X_test),
    'train_label': torch.from_numpy(y_train),
    'test_label': torch.from_numpy(y_test),
}

常见错误分析

在准备数据集时，开发者常犯的错误包括：

维度不匹配：训练输入和标签的样本数量不一致
切片错误：错误地使用了相同的索引范围切片训练和测试数据
形状问题：目标值没有正确的形状(如缺少必要的维度)

例如，以下代码会导致错误：

# 错误示例 - 训练和测试集使用了相同的索引范围
dataset = {
    'train_input': torch.from_numpy(X[:3000]),  # 前3000个样本
    'test_input': torch.from_numpy(X[:2000]),   # 前2000个样本
    'train_label': torch.from_numpy(y[:3000]),
    'test_label': torch.from_numpy(y[:2000]),
}

这种切片方式会导致训练和测试集有大量重叠数据，且当模型尝试访问索引2941时，由于测试集只有2000个样本，会抛出"IndexError"。

最佳实践建议

使用标准分割方法：推荐使用sklearn的train_test_split函数，它可以确保数据随机分割且无重叠
检查数据形状：在创建数据集后，应该打印并检查各部分的形状
目标值形状：确保回归目标值的形状是(n_samples, 1)而不是(n_samples,)
数据类型转换：必要时将数据转换为float32类型，避免类型不匹配

# 完整的最佳实践示例
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 确保目标值是二维的
if len(y_train.shape) == 1:
    y_train = y_train.reshape(-1, 1)
    y_test = y_test.reshape(-1, 1)

dataset = {
    'train_input': torch.from_numpy(X_train.astype(np.float32)),
    'test_input': torch.from_numpy(X_test.astype(np.float32)),
    'train_label': torch.from_numpy(y_train.astype(np.float32)),
    'test_label': torch.from_numpy(y_test.astype(np.float32)),
}

# 验证形状
print(f"训练输入形状: {dataset['train_input'].shape}")
print(f"训练标签形状: {dataset['train_label'].shape}")
print(f"测试输入形状: {dataset['test_input'].shape}")
print(f"测试标签形状: {dataset['test_label'].shape}")