使用gplearn进行符号回归与特征工程的实践指南

2026-02-04 05:15:46作者：田桥桑Industrious

引言

gplearn是一个基于遗传编程的Python机器学习库，它实现了三种主要功能：符号回归(SymbolicRegressor)、符号转换器(SymbolicTransformer)和符号分类器(SymbolicClassifier)。本文将深入探讨如何使用这些工具解决实际问题，并通过具体示例展示其强大功能。

符号回归实践

符号回归是一种通过进化算法自动发现数据中数学表达式的方法。让我们通过一个具体例子来理解其工作原理。

数据准备

首先我们创建一个基于数学关系y = X₀² - X₁² + X₁ - 1的合成数据集：

import numpy as np
from sklearn.utils import check_random_state

# 创建网格数据
x0 = np.arange(-1, 1, 0.1)
x1 = np.arange(-1, 1, 0.1)
x0, x1 = np.meshgrid(x0, x1)
y_truth = x0**2 - x1**2 + x1 - 1

# 生成训练和测试数据
rng = check_random_state(0)
X_train = rng.uniform(-1, 1, 100).reshape(50, 2)
y_train = X_train[:, 0]**2 - X_train[:, 1]**2 + X_train[:, 1] - 1
X_test = rng.uniform(-1, 1, 100).reshape(50, 2)
y_test = X_test[:, 0]**2 - X_test[:, 1]**2 + X_test[:, 1] - 1

模型配置与训练

配置SymbolicRegressor时，关键参数包括：

population_size: 种群大小
generations: 进化代数
stopping_criteria: 提前停止条件
各种变异概率参数
parsimony_coefficient: 控制程序复杂度的系数

from gplearn.genetic import SymbolicRegressor

est_gp = SymbolicRegressor(
    population_size=5000,
    generations=20,
    stopping_criteria=0.01,
    p_crossover=0.7,
    p_subtree_mutation=0.1,
    p_hoist_mutation=0.05,
    p_point_mutation=0.1,
    max_samples=0.9,
    verbose=1,
    parsimony_coefficient=0.01,
    random_state=0
)
est_gp.fit(X_train, y_train)

结果分析

训练完成后，我们可以查看找到的最佳表达式：

print(est_gp._program)
# 输出: sub(add(-0.999, X1), mul(sub(X1, X0), add(X0, X1)))

虽然这个表达式看起来与原始关系不同，但数学上展开后实际上是等价的：

y = (-0.999 + X₁) - ((X₁ - X₀) × (X₀ + X₁))
= X₀² - X₁² + X₁ - 0.999

与原始关系y = X₀² - X₁² + X₁ - 1几乎完全相同！

与传统方法对比

与决策树和随机森林相比，符号回归能够找到更平滑的函数关系，避免了树模型的"块状"决策边界问题。

符号转换器应用

SymbolicTransformer可以自动生成非线性特征，增强现有模型的表达能力。

糖尿病数据集示例

from sklearn.datasets import load_diabetes
from sklearn.linear_model import Ridge

# 加载并打乱数据
diabetes = load_diabetes()
perm = rng.permutation(diabetes.target.size)
diabetes.data = diabetes.data[perm]
diabetes.target = diabetes.target[perm]

# 基准模型
est = Ridge()
est.fit(diabetes.data[:300], diabetes.target[:300])
print(est.score(diabetes.data[300:], diabetes.target[300:]))
# 输出: 0.434

特征生成与效果提升

使用SymbolicTransformer生成新特征：

from gplearn.genetic import SymbolicTransformer

function_set = ['add', 'sub', 'mul', 'div', 'sqrt', 'log', 'abs', 'neg', 'inv', 'max', 'min']
gp = SymbolicTransformer(
    generations=20,
    population_size=2000,
    hall_of_fame=100,
    n_components=10,
    function_set=function_set,
    parsimony_coefficient=0.0005,
    max_samples=0.9,
    verbose=1,
    random_state=0,
    n_jobs=3
)
gp.fit(diabetes.data[:300], diabetes.target[:300])

# 转换数据并评估
gp_features = gp.transform(diabetes.data)
new_diabetes = np.hstack((diabetes.data, gp_features))
est.fit(new_diabetes[:300], diabetes.target[:300])
print(est.score(new_diabetes[300:], diabetes.target[300:]))
# 输出: 0.534

R²分数从0.434提升到0.534，证明了自动生成的非线性特征确实能增强线性模型的表达能力。

符号分类器实战

SymbolicClassifier可用于分类任务，能够发现非线性的决策边界。

乳腺癌数据集示例

from sklearn.datasets import load_breast_cancer
from sklearn.metrics import roc_auc_score

# 加载并打乱数据
cancer = load_breast_cancer()
perm = rng.permutation(cancer.target.size)
cancer.data = cancer.data[perm]
cancer.target = cancer.target[perm]

# 训练分类器
est = SymbolicClassifier(
    parsimony_coefficient=0.01,
    feature_names=cancer.feature_names,
    random_state=1
)
est.fit(cancer.data[:400], cancer.target[:400])

# 评估性能
y_true = cancer.target[400:]
y_score = est.predict_proba(cancer.data[400:])[:,1]
print(roc_auc_score(y_true, y_score))
# 输出: 0.969

决策树可视化

我们可以将找到的最佳分类规则可视化：

import graphviz

dot_data = est._program.export_graphviz()
graph = graphviz.Source(dot_data)
graph

生成的决策树展示了分类器如何组合不同特征来做出预测决策。

最佳实践与调参建议

种群大小：较大的种群能探索更多可能性，但会增加计算成本
进化代数：通常20-50代足够，配合提前停止条件
变异概率：保持变异多样性很重要，但不宜过高
简洁性系数：控制程序复杂度，避免过拟合
函数集：根据问题领域选择合适的运算符集合

结论

gplearn通过遗传编程实现了强大的符号学习能力，能够：

发现数据中隐藏的数学关系
自动生成有意义的非线性特征
构建可解释的分类规则

与传统机器学习方法相比，符号学习得到的模型通常更简洁、更具解释性，同时保持了良好的预测性能。通过合理配置参数，gplearn可以成为数据科学家工具箱中的有力补充。

gplearn

Genetic Programming in Python, with a scikit-learn inspired API

项目地址：https://gitcode.com/gh_mirrors/gp/gplearn

登录后查看全文

使用gplearn进行符号回归与特征工程的实践指南

引言

符号回归实践

数据准备

模型配置与训练

结果分析

与传统方法对比

符号转换器应用

糖尿病数据集示例

特征生成与效果提升

符号分类器实战

乳腺癌数据集示例

决策树可视化

最佳实践与调参建议

结论

热门内容推荐

最新内容推荐

项目优选

使用gplearn进行符号回归与特征工程的实践指南

引言

符号回归实践

数据准备

模型配置与训练

结果分析

与传统方法对比

符号转换器应用

糖尿病数据集示例

特征生成与效果提升

符号分类器实战

乳腺癌数据集示例

决策树可视化

最佳实践与调参建议

结论

相关内容推荐

热门内容推荐

最新内容推荐

项目优选