PySR项目实战：符号回归技术详解与示例解析

2026-02-04 04:48:03作者：齐冠琰

前言

符号回归(Symbolic Regression)是一种强大的机器学习技术，它能够从数据中自动发现数学表达式，而无需预先指定模型形式。PySR作为一款高效的符号回归工具，提供了丰富的功能和灵活的配置选项。本文将深入解析PySR的核心功能，并通过实际示例展示其应用场景。

环境准备

首先需要导入必要的Python库：

import numpy as np
from pysr import *

基础应用示例

1. 简单符号搜索

最基本的应用场景是从数据中发现数学关系式。以下示例展示了如何发现表达式2 cos(x3) + x0^2 - 2：

# 生成随机数据
X = 2 * np.random.randn(100, 5)
y = 2 * np.cos(X[:, 3]) + X[:, 0] ** 2 - 2

# 创建并训练模型
model = PySRRegressor(binary_operators=["+", "-", "*", "/"])
model.fit(X, y)
print(model)

这个例子展示了PySR的基本工作流程：生成数据、配置运算符、训练模型和输出结果。

2. 自定义运算符

PySR允许用户定义自己的运算符，这在处理特殊数学关系时非常有用：

X = 2 * np.random.randn(100, 5)
y = 1 / X[:, 0]

model = PySRRegressor(
    binary_operators=["+", "*"],
    unary_operators=["inv(x) = 1/x"],  # 自定义倒数运算符
    extra_sympy_mappings={"inv": lambda x: 1/x},  # 为SymPy定义映射
)
model.fit(X, y)

进阶功能

3. 多输出回归

PySR支持同时发现多个输出变量的表达式：

X = 2 * np.random.randn(100, 5)
y = 1 / X[:, [0, 1, 2]]  # 三个输出变量

model = PySRRegressor(
    binary_operators=["+", "*"],
    unary_operators=["inv(x) = 1/x"],
)
model.fit(X, y)

4. 结果可视化

分析回归结果时，可视化是重要手段：

from matplotlib import pyplot as plt

# 绘制预测值与真实值的对比
plt.scatter(y[:, 0], model.predict(X)[:, 0])
plt.xlabel('真实值')
plt.ylabel('预测值')
plt.show()

还可以输出LaTeX格式的表达式用于学术论文：

model.latex()[0]  # 第一个输出变量的LaTeX表达式

实用技巧

5. 特征选择

面对高维数据时，特征选择至关重要：

X = np.random.randn(300, 30)  # 30个特征
y = X[:, 3]**2 - X[:, 19]**2 + 1.5  # 仅使用2个特征

model = PySRRegressor(
    binary_operators=["+", "-", "*", "/"],
    unary_operators=["exp"],
    select_k_features=5,  # 自动选择最重要的5个特征
)
model.fit(X, y)

6. 数据去噪

对于含噪声数据，PySR提供去噪选项：

X = np.random.randn(100, 5)
noise = np.random.randn(100) * 0.1
y = np.exp(X[:, 0]) + X[:, 1] + X[:, 2] + noise

model = PySRRegressor(
    binary_operators=["+", "-", "*", "/"],
    unary_operators=["exp"],
    denoise=True,  # 启用去噪
)
model.fit(X, y)

高级应用

7. 使用Julia扩展功能

PySR基于Julia后端，可以无缝集成Julia生态：

from pysr import jl

# 安装并使用Julia的Primes包
jl.seval("""
import Pkg
Pkg.add("Primes")
import Primes
""")

# 定义素数计算函数
jl.seval("""
function p(i::T) where T
    if (0.5 < i < 1000)
        return T(Primes.prime(round(Int, i)))
    else
        return T(NaN)
    end
end
""")

# 创建数据集
primes = {i: jl.p(i*1.0) for i in range(1, 999)}
X = np.random.randint(0, 100, 100)[:, None]
y = [primes[3*X[i, 0] + 1] - 5 + np.random.randn()*0.001 for i in range(100)]

# 配置并训练模型
model = PySRRegressor(
    binary_operators=["+", "-", "*", "/"],
    unary_operators=["p"],
    niterations=100
)
model.fit(X, y)

8. 复数运算

PySR支持复数运算：

X = np.random.randn(100, 1) + 1j * np.random.randn(100, 1)
y = (1 + 2j) * np.cos(X[:, 0] * (0.5 - 0.2j))

model = PySRRegressor(
    binary_operators=["+", "-", "*"],
    unary_operators=["cos"],
    niterations=100,
)
model.fit(X, y)

9. 自定义目标函数

用户可以完全自定义优化目标：

objective = """
function my_custom_objective(tree, dataset::Dataset{T,L}, options) where {T,L}
    # 自定义目标函数实现
    # ...
    return loss_value
"""

model = PySRRegressor(
    loss_function=objective,
    # 其他配置...
)

10. 量纲分析

对于物理问题，可以加入量纲约束：

model = PySRRegressor(
    dimensional_constraint_penalty=10**5,  # 量纲违规惩罚系数
    # 其他配置...
)

model.fit(
    X, y,
    X_units=["kg", "m"],  # 输入变量单位
    y_units="m/s^2"       # 输出变量单位
)

结构化表达式

PySR 1.0引入了强大的表达式规范功能：

模板表达式

from pysr import TemplateExpressionSpec

template = TemplateExpressionSpec(
    expressions=["f", "g"],
    variable_names=["x1", "x2", "x3"],
    combine="sin(f(x1, x2)) + g(x3)",  # 定义表达式结构
)

model = PySRRegressor(
    expression_spec=template,
    # 其他配置...
)

参数化表达式

对于分类数据，可以学习类别特定的参数：

template = TemplateExpressionSpec(
    expressions=["f"],
    variable_names=["x1", "x2", "category"],
    parameters={"p1": 3, "p2": 3},  # 每个类别一个参数
    combine="f(x1, x2, p1[category], p2[category])"
)

性能监控

使用TensorBoard监控训练过程：

from pysr import TensorBoardLoggerSpec

model = PySRRegressor(
    logger=TensorBoardLoggerSpec(log_dir="logs"),
    # 其他配置...
)

结语

PySR作为一款强大的符号回归工具，从简单的数学表达式发现到复杂的结构化模型学习，提供了全面的解决方案。通过本文的示例，读者可以掌握PySR的核心功能和应用技巧，为解决实际问题奠定基础。无论是科学研究还是工程应用，PySR都能帮助用户从数据中发现有价值的数学关系。

PySR

High-Performance Symbolic Regression in Python and Julia

项目地址：https://gitcode.com/gh_mirrors/py/PySR

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

PySR项目实战：符号回归技术详解与示例解析

前言

环境准备

基础应用示例

1. 简单符号搜索

2. 自定义运算符

进阶功能

3. 多输出回归

4. 结果可视化

实用技巧

5. 特征选择

6. 数据去噪

高级应用

7. 使用Julia扩展功能

8. 复数运算

9. 自定义目标函数

10. 量纲分析

结构化表达式

模板表达式

参数化表达式

性能监控

结语

热门内容推荐

最新内容推荐

项目优选

PySR项目实战：符号回归技术详解与示例解析

前言

环境准备

基础应用示例

1. 简单符号搜索

2. 自定义运算符

进阶功能

3. 多输出回归

4. 结果可视化

实用技巧

5. 特征选择

6. 数据去噪

高级应用

7. 使用Julia扩展功能

8. 复数运算

9. 自定义目标函数

10. 量纲分析

结构化表达式

模板表达式

参数化表达式

性能监控

结语

相关内容推荐

热门内容推荐

最新内容推荐

项目优选