5个维度掌握BoTorch：解决复杂优化问题的贝叶斯优化框架

2026-04-02 09:29:37作者：贡沫苏Truman

面对优化挑战：为什么传统方法会失效？

在机器学习模型调优、工程参数优化或科学实验设计中，我们经常面临这样的困境：目标函数评估成本高昂、无法获取梯度信息、参数空间高维且存在噪声干扰。传统优化方法如网格搜索或随机搜索效率低下，而基于梯度的优化方法又需要可微的目标函数。

贝叶斯优化作为一种基于概率模型的智能优化方法，通过构建目标函数的概率代理模型（通常是高斯过程）来指导搜索方向，能够在有限的评估次数内高效找到最优解。BoTorch作为PyTorch生态系统中的贝叶斯优化库，将现代优化理论与深度学习技术相结合，为解决复杂优化问题提供了强大工具。

核心方案：BoTorch的模块化架构与工作原理

概念解析：贝叶斯优化的"智能搜索"机制

贝叶斯优化的核心思想类似于寻宝游戏：想象你在一个陌生的岛屿上寻找宝藏，每次只能移动到一个新位置并挖掘。普通方法可能随机探索或沿着固定方向前进，而贝叶斯优化则会根据已有的挖掘结果，不断更新对宝藏位置的概率判断，从而更智能地选择下一个挖掘点。

在BoTorch中，这个过程被分解为三个关键步骤：

概率建模：使用高斯过程等模型对目标函数进行建模
采集函数优化：基于当前模型选择最有价值的评估点
模型更新：用新的评估结果更新概率模型

核心优势：BoTorch的差异化特性

PyTorch原生支持：无缝集成PyTorch生态，支持自动微分和GPU加速
模块化设计：各组件解耦，支持灵活定制和扩展
批量优化能力：支持并行评估多个候选点，大幅提升优化效率
多目标优化：提供丰富的多目标优化策略和指标
先进采样技术：实现蒙特卡洛和准蒙特卡洛等多种采样方法

应用场景：BoTorch的适用领域

机器学习超参数调优：高效优化模型超参数，减少实验次数
深度学习架构搜索：探索神经网络结构空间，找到性能最佳配置
物理实验设计：优化材料合成、化学反应等成本高昂的实验
工程参数优化：调整制造工艺参数，提升产品质量或降低成本
推荐系统优化：优化个性化推荐算法的参数配置

技术组件解析：从基础到进阶的功能模块

基础组件：构建优化系统的核心模块

概率模型模块

BoTorch提供了多种概率模型实现，位于botorch/models/目录下，用于构建目标函数的代理模型：

高斯过程回归：[botorch/models/gp_regression.py]实现了单任务高斯过程模型，适用于大多数基础优化场景
多任务模型：[botorch/models/multitask.py]支持同时优化相关联的多个任务，共享信息提升效率
近似高斯过程：[botorch/models/approximate_gp.py]提供大规模数据集的近似方法，解决计算复杂度问题

基础模型使用示例：

# 导入必要的模块
import torch
from botorch.models import SingleTaskGP
from botorch.fit import fit_gpytorch_model
from gpytorch.mlls import ExactMarginalLogLikelihood

# 准备训练数据 (X为输入特征, Y为目标函数值)
train_X = torch.rand(20, 2)  # 20个样本, 2维特征
train_Y = torch.sin(train_X[:, 0]) * torch.cos(train_X[:, 1])  # 示例目标函数

# 构建高斯过程模型
model = SingleTaskGP(train_X, train_Y)
mll = ExactMarginalLogLikelihood(model.likelihood, model)

# 训练模型
fit_gpytorch_model(mll)

# 模型预测
test_X = torch.rand(5, 2)
with torch.no_grad():
    posterior = model.posterior(test_X)
    mean = posterior.mean  # 预测均值
    stddev = posterior.stddev  # 预测标准差

采集函数模块

采集函数决定了下一个评估点的选择策略，位于botorch/acquisition/目录：

期望改进(EI)：[botorch/acquisition/analytic.py]计算在给定点获得改进的期望，平衡探索与利用
知识梯度(KG)：[botorch/acquisition/knowledge_gradient.py]考虑未来信息价值，适合序贯决策
上置信界(UCB)：通过权衡均值和不确定性来选择评估点

采集函数使用示例：

from botorch.acquisition import ExpectedImprovement
from botorch.optim import optimize_acqf

# 构建EI采集函数
best_value = train_Y.max().item()
ei = ExpectedImprovement(model, best_value=best_value)

# 定义搜索空间边界
bounds = torch.stack([torch.zeros(2), torch.ones(2)])  # 2维特征, 范围[0,1]

# 优化采集函数获取下一个评估点
candidate, acq_value = optimize_acqf(
    ei,
    bounds=bounds,
    q=1,  # 每次选择1个点
    num_restarts=5,  # 多起点优化
    raw_samples=20,  # 初始采样点数
)

print(f"推荐评估点: {candidate}")
print(f"采集函数值: {acq_value}")

优化引擎

BoTorch的优化模块[botorch/optim/]提供了高效的采集函数优化方法：

批量优化：支持同时优化多个点，适合并行评估场景
约束优化：处理带约束条件的优化问题
混合空间优化：支持连续、离散混合类型的参数空间

进阶功能：应对复杂优化场景

批量贝叶斯优化

在实际应用中，往往可以同时评估多个候选点，BoTorch的批量优化功能显著提升效率：

from botorch.acquisition import qExpectedImprovement
from botorch.sampling import SobolQMCNormalSampler

# 构建批量EI采集函数
sampler = SobolQMCNormalSampler(num_samples=512)
qei = qExpectedImprovement(
    model, 
    best_value=best_value,
    sampler=sampler
)

# 一次优化3个候选点
candidates, acq_values = optimize_acqf(
    qei,
    bounds=bounds,
    q=3,  # 批量大小
    num_restarts=10,
    raw_samples=50,
)

多目标优化

BoTorch在[botorch/acquisition/multi_objective/]中提供了多目标优化解决方案：

Parego：将多目标问题转化为单目标优化
超体积改进：直接优化Pareto前沿的超体积

多目标优化示例：

from botorch.acquisition.multi_objective import qParEGO
from botorch.utils.multi_objective import is_non_dominated

# 假设我们有2个目标函数需要同时优化
train_Y = torch.cat([
    torch.sin(train_X[:, 0]) * torch.cos(train_X[:, 1]).unsqueeze(1),
    torch.cos(train_X[:, 0]) * torch.sin(train_X[:, 1]).unsqueeze(1)
], dim=1)

# 构建多目标模型
model = SingleTaskGP(train_X, train_Y)
fit_gpytorch_model(ExactMarginalLogLikelihood(model.likelihood, model))

# 构建ParEGO采集函数
qparego = qParEGO(model, num_objectives=2)

# 优化采集函数
candidates, _ = optimize_acqf(
    qparego,
    bounds=bounds,
    q=3,
    num_restarts=10,
    raw_samples=50,
)

# 获取非支配解
non_dominated = is_non_dominated(train_Y)
print(f"非支配解数量: {non_dominated.sum().item()}")

采样策略对比

BoTorch支持多种采样策略，不同策略在性能上有显著差异：

上图对比了蒙特卡洛(MC)和准蒙特卡洛(qMC)采样方法在估计期望改进时的表现。可以明显看出，qMC方法(蓝色)相比传统MC方法(红色)具有更低的方差，估计曲线更接近解析解(黑色虚线)。

实战工具：提升优化效率的实用功能

固定基样本技术

固定基样本策略可以显著提升采样稳定性，特别是在迭代优化过程中：

左图显示普通qMC采样的结果波动较大，而右图使用固定基样本后，多次采样结果(多条绿线)一致性明显提高，更接近真实解析解。

使用固定基样本的示例：

from botorch.sampling import NormalMCSampler

# 创建固定基样本的采样器
sampler = NormalMCSampler(
    num_samples=128,
    seed=42,  # 固定随机种子
    resample=False,  # 不重新采样
)

# 在采集函数中使用固定采样器
qei = qExpectedImprovement(
    model, 
    best_value=best_value,
    sampler=sampler
)

模型选择与评估工具

BoTorch提供了模型选择和交叉验证工具，帮助用户选择合适的模型：

from botorch.cross_validation import cv_split, fit_and_evaluate
from botorch.models import FixedNoiseGP, SingleTaskGP

# 准备交叉验证数据
train_X_cv, test_X_cv, train_Y_cv, test_Y_cv = cv_split(train_X, train_Y, 0.2)

# 定义要比较的模型
models = {
    "SingleTaskGP": SingleTaskGP,
    "FixedNoiseGP": lambda x, y: FixedNoiseGP(x, y, torch.full_like(y, 0.01))
}

# 交叉验证评估
for name, model_cls in models.items():
    metrics = fit_and_evaluate(
        model_cls=model_cls,
        X=train_X_cv,
        y=train_Y_cv,
        X_test=test_X_cv,
        y_test=test_Y_cv,
    )
    print(f"{name} 测试RMSE: {metrics['test_rmse']:.4f}")

实践指南：从理论到应用的实施步骤

技术选型指南：何时选择BoTorch？

BoTorch特别适合以下场景：

评估成本高：当目标函数评估耗时或昂贵（如物理实验、长时间模拟）
无梯度信息：目标函数不可微或梯度难以计算
高维空间：参数空间维度较高（10-100维）
多目标优化：需要同时优化多个相互冲突的目标
批量评估：具备并行评估多个候选点的条件

如果你的问题符合以上一个或多个特点，BoTorch可能是比传统优化方法更好的选择。

完整优化流程示例：机器学习模型超参数调优

以下是使用BoTorch优化支持向量机(SVM)超参数的完整示例：

import numpy as np
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import cross_val_score
import torch
from botorch.models import SingleTaskGP
from botorch.fit import fit_gpytorch_model
from gpytorch.mlls import ExactMarginalLogLikelihood
from botorch.acquisition import ExpectedImprovement
from botorch.optim import optimize_acqf

# 1. 准备数据和目标函数
data = load_breast_cancer()
X, y = data.data, data.target

def svm_objective(params):
    """SVM交叉验证准确率作为目标函数"""
    # 参数转换: 将对数空间参数转换回原始空间
    C = 10 ** params[0].item()
    gamma = 10 ** params[1].item()
    
    # 创建SVM模型并进行交叉验证
    model = SVC(C=C, gamma=gamma, random_state=42)
    scores = cross_val_score(model, X, y, cv=5)
    
    # 返回负准确率作为目标函数值（因为我们要最小化）
    return torch.tensor([-scores.mean()])

# 2. 初始化样本
bounds = torch.tensor([[-5.0, 5.0], [-5.0, 5.0]])  # log10(C)和log10(gamma)的范围
num_initial_points = 5
train_X = bounds[0] + (bounds[1] - bounds[0]) * torch.rand(num_initial_points, 2)
train_Y = torch.stack([svm_objective(x) for x in train_X])

# 3. 贝叶斯优化循环
num_iterations = 15
for i in range(num_iterations):
    # 构建高斯过程模型
    model = SingleTaskGP(train_X, train_Y)
    mll = ExactMarginalLogLikelihood(model.likelihood, model)
    fit_gpytorch_model(mll)
    
    # 构建并优化采集函数
    ei = ExpectedImprovement(model, best_value=train_Y.min())
    candidate, _ = optimize_acqf(
        ei, bounds=bounds, q=1, num_restarts=5, raw_samples=20
    )
    
    # 评估新候选点
    new_Y = svm_objective(candidate)
    
    # 更新训练数据
    train_X = torch.cat([train_X, candidate])
    train_Y = torch.cat([train_Y, new_Y])
    
    # 打印当前最佳结果
    best_idx = train_Y.argmin()
    best_params = train_X[best_idx]
    best_score = -train_Y[best_idx].item()
    print(f"Iteration {i+1}: Best score = {best_score:.4f}, "
          f"C = {10**best_params[0]:.2e}, gamma = {10**best_params[1]:.2e}")

# 4. 输出最佳参数
best_idx = train_Y.argmin()
best_params = train_X[best_idx]
print(f"\n最佳参数: C = {10**best_params[0]:.2e}, gamma = {10**best_params[1]:.2e}")
print(f"最佳交叉验证准确率: {-train_Y[best_idx].item():.4f}")

性能对比：BoTorch与其他优化方法

BoTorch相比传统优化方法具有显著优势：

左图显示使用10次采样时，最优值估计分布较宽且偏离真实最优值(虚线)；右图使用50次采样后，估计分布集中在真实最优值附近，准确性明显提高。

类似地，参数位置估计也表现出相同趋势：采样次数增加，估计的最优参数位置更接近真实值，分布更集中。

常见误区解析

误区：采样次数越多越好解析：增加采样次数可以提高估计精度，但会增加计算成本。实际应用中需根据问题复杂度和计算资源权衡，通常50-200次采样可获得较好结果。
误区：贝叶斯优化适用于所有优化问题解析：对于低维、可微且评估成本低的问题，基于梯度的优化方法可能更高效。贝叶斯优化最适合高维、评估成本高或无梯度的场景。
误区：初始样本数量对结果影响不大解析：初始样本质量直接影响模型质量和优化效果。建议初始样本数量为参数维度的5-10倍，或使用拉丁超立方抽样等方法提高初始样本覆盖度。
误区：批量优化只是简单并行多个单步优化解析：BoTorch的批量优化考虑了候选点之间的相关性，采用更复杂的采集函数设计，比简单并行多个单步优化效果更好。

高级应用：复杂场景的解决方案

约束优化问题

许多实际问题存在约束条件，BoTorch提供了处理约束的机制：

from botorch.acquisition import ConstrainedExpectedImprovement

# 假设我们有一个约束函数
def constraint_func(x):
    """约束函数: 返回正值表示满足约束"""
    return torch.tensor([1.0 - torch.norm(x)])  # 例如：L2范数约束

# 收集约束函数评估结果
train_C = torch.stack([constraint_func(x) for x in train_X])

# 构建带约束的采集函数
cei = ConstrainedExpectedImprovement(
    model, 
    best_value=best_value,
    constraints={0: (0.0, float('inf'))},  # 约束条件: 第0个约束 >= 0
    X_observed=train_X,
    objective=None,
)

多保真度优化

对于存在不同精度评估选项的问题，多保真度优化可以显著降低成本：

from botorch.models import SingleTaskGP, FixedNoiseGP
from botorch.models.multi_fidelity import FASGP

# 多保真度模型需要包含保真度参数作为最后一个输入维度
# 假设我们有3个保真度级别: 0.25, 0.5, 1.0

# 构建完全自适应稀疏高斯过程模型
model = FASGP(
    train_X,  # 包含保真度参数的输入
    train_Y,
    train_X[:, -1].unsqueeze(-1),  # 保真度参数
)