5个维度掌握BoTorch：从入门到专家的贝叶斯优化实践指南

2026-04-02 09:27:46作者：仰钰奇

贝叶斯优化是解决黑盒函数优化问题的强大技术，而BoTorch作为基于PyTorch的现代贝叶斯优化库，为机器学习和深度学习提供了高效、灵活的优化解决方案。本文将通过概念解析、技术架构、实践指南、高级应用和生态拓展五个维度，帮助你全面掌握贝叶斯优化的核心技术，从理论到实践，从入门到专家。

一、概念解析：贝叶斯优化的核心原理与应用场景

什么是贝叶斯优化？

贝叶斯优化是一种用于优化黑盒函数的序列设计策略。它通过构建目标函数的概率代理模型（通常使用高斯过程，一种基于概率的函数逼近方法）来平衡探索与利用，在有限的评估次数内找到最优解。贝叶斯优化特别适用于评估成本高昂、难以建模或具有噪声的黑盒函数优化问题。

实际应用场景案例

机器学习超参数调优：在深度学习模型训练中，超参数的选择对模型性能有重要影响。贝叶斯优化可以高效地搜索超参数空间，找到最优的超参数组合，相比网格搜索和随机搜索能节省大量计算资源。
材料科学实验设计：在新材料研发过程中，通过贝叶斯优化可以优化实验条件，如温度、压力、成分比例等，加速新材料的发现和性能优化。
能源系统优化：在能源生产和分配系统中，贝叶斯优化可以用于优化能源调度、设备运行参数等，提高能源利用效率，降低成本。
药物研发：在药物分子设计中，贝叶斯优化可以帮助筛选具有潜在疗效的分子结构，减少实验次数，加速药物研发进程。
工业生产过程优化：在制造业中，贝叶斯优化可以优化生产工艺参数，提高产品质量和生产效率，降低生产成本。

快速回顾

贝叶斯优化通过概率代理模型平衡探索与利用，适用于黑盒函数优化。
实际应用场景广泛，包括机器学习、材料科学、能源系统、药物研发和工业生产等领域。
相比传统优化方法，贝叶斯优化能在有限评估次数内找到最优解，节省计算资源。

二、技术架构：BoTorch的核心模块与交互关系

BoTorch的核心模块

BoTorch的核心架构由多个模块组成，各模块之间相互协作，共同实现贝叶斯优化的功能。

概率模型模块（botorch/models/）：该模块提供了多种概率模型，用于构建目标函数的代理模型。常见的模型包括高斯过程回归（如SingleTaskGP）、多任务模型、集成模型等。
采集函数系统（botorch/acquisition/）：采集函数用于指导优化过程的搜索方向，它根据代理模型的预测结果，选择下一个最有价值的评估点。常见的采集函数有期望改进（EI）、知识梯度（KG）等。
优化模块（botorch/optim/）：该模块提供了优化采集函数的方法，用于找到采集函数的最大值点，即下一个要评估的候选点。
后验模块（botorch/posteriors/）：后验模块用于处理模型的后验分布，提供预测均值、方差等信息，为采集函数的计算提供支持。
采样模块（botorch/sampling/）：采样模块提供了多种采样方法，用于生成候选点或对后验分布进行采样，支持蒙特卡洛（MC）和准蒙特卡洛（qMC）等采样策略。

模块间交互关系

BoTorch的各模块之间通过清晰的接口进行交互，形成一个完整的贝叶斯优化流程。具体交互关系如下：

数据准备：用户提供训练数据（输入和对应的目标函数值）。
模型构建：使用概率模型模块构建代理模型，如高斯过程模型。
模型训练：通过优化模块训练代理模型，拟合训练数据。
采集函数构建：根据代理模型和具体问题，选择合适的采集函数。
候选点选择：使用优化模块优化采集函数，得到下一个候选评估点。
评估与更新：在候选点处评估目标函数，获取新的训练数据，更新代理模型，重复步骤3-6，直到满足停止条件。

💡 思考：为何高斯过程在高维空间会面临挑战？

高斯过程在高维空间中面临的主要挑战是计算复杂度和数据稀疏性。随着输入维度的增加，协方差矩阵的大小呈平方增长，导致矩阵求逆等操作的计算复杂度急剧增加。此外，在高维空间中，数据点往往变得稀疏，难以准确估计协方差函数，从而影响模型的预测性能。

快速回顾

BoTorch的核心模块包括概率模型、采集函数、优化、后验和采样模块。
各模块之间通过清晰的接口交互，形成完整的贝叶斯优化流程。
高斯过程在高维空间面临计算复杂度和数据稀疏性的挑战。

三、实践指南：BoTorch的安装配置与基础应用

安装与环境配置

安装BoTorch非常简单，可以通过pip命令进行安装：

pip install botorch

对于需要GPU加速支持的用户，可以安装包含GPU优化的高斯过程版本：

pip install botorch[gpytorch]  # 包含GPU优化的高斯过程

基础应用：单目标贝叶斯优化

下面通过一个简单的例子展示如何使用BoTorch进行单目标贝叶斯优化。假设我们要优化的目标函数是一个简单的二维函数： $f (x) = - (x_{1}^{2} + x_{2}^{2})$ ，我们的目标是找到该函数的最大值点。

import torch
from botorch.fit import fit_gpytorch_model
from botorch.models import SingleTaskGP
from botorch.optim import optimize_acqf
from botorch.acquisition import ExpectedImprovement
from gpytorch.mlls import ExactMarginalLogLikelihood

# 生成初始训练数据
train_X = torch.rand(10, 2)  # 随机生成10个二维输入点
train_Y = -(train_X[:, 0] ** 2 + train_X[:, 1] ** 2).unsqueeze(-1)  # 计算目标函数值

# 构建高斯过程模型
model = SingleTaskGP(train_X, train_Y)
mll = ExactMarginalLogLikelihood(model.likelihood, model)
fit_gpytorch_model(mll)  # 训练模型

# 定义采集函数（期望改进）
acq_func = ExpectedImprovement(model=model, best_f=train_Y.max())

# 优化采集函数，获取下一个候选点
bounds = torch.tensor([[0.0, 0.0], [1.0, 1.0]])  # 输入空间的边界
candidate, acq_value = optimize_acqf(
    acq_function=acq_func,
    bounds=bounds,
    q=1,  # 每次选择1个候选点
    num_restarts=20,  # 优化的重启次数
    raw_samples=100,  # 初始采样点数
)

print(f"Next candidate point: {candidate}")
print(f"Acquisition function value: {acq_value}")

// 重点标注核心逻辑： // 1. 生成初始训练数据，包括输入和对应的目标函数值 // 2. 构建SingleTaskGP模型，这是一种简单的高斯过程模型 // 3. 使用ExactMarginalLogLikelihood训练模型，最大化边际似然 // 4. 选择ExpectedImprovement作为采集函数，它衡量了在候选点处获得改进的期望 // 5. 使用optimize_acqf函数优化采集函数，得到下一个候选评估点

采样策略对比：蒙特卡洛 vs 准蒙特卡洛

在贝叶斯优化中，采样策略对优化效果有重要影响。BoTorch支持多种采样方法，其中蒙特卡洛（MC）和准蒙特卡洛（qMC）是两种常用的采样策略。

从图中可以看出，准蒙特卡洛采样相比传统蒙特卡洛采样具有更低的方差和更高的精度。50次采样的估计比10次采样更稳定，qMC方法在相同采样次数下表现更优。

快速回顾

BoTorch可以通过pip命令快速安装，支持GPU加速。
单目标贝叶斯优化的基本流程包括数据准备、模型构建、模型训练、采集函数构建和候选点选择。
准蒙特卡洛采样在方差和精度方面优于传统蒙特卡洛采样。

四、高级应用：多目标优化与性能调优

多目标优化

在实际应用中，很多问题需要同时优化多个目标函数，这就是多目标优化问题。BoTorch在多目标优化方面提供了强大的支持，相关模块位于botorch/acquisition/multi_objective/。

常见的多目标优化方法包括帕累托优化和超体积改进等。下面以帕累托优化为例，展示如何使用BoTorch进行多目标贝叶斯优化。

import torch
from botorch.models import SingleTaskGP
from botorch.fit import fit_gpytorch_model
from botorch.acquisition.multi_objective import ParetoFront
from botorch.optim import optimize_acqf
from botorch.acquisition.multi_objective.monte_carlo import qExpectedHypervolumeImprovement
from gpytorch.mlls import ExactMarginalLogLikelihood

# 生成初始训练数据（两个目标函数）
train_X = torch.rand(20, 2)
train_Y = torch.stack([
    -(train_X[:, 0] ** 2 + train_X[:, 1] ** 2),  # 目标函数1
    -( (train_X[:, 0] - 1) ** 2 + (train_X[:, 1] - 1) ** 2 )  # 目标函数2
], dim=-1)

# 构建多输出高斯过程模型
model = SingleTaskGP(train_X, train_Y)
mll = ExactMarginalLogLikelihood(model.likelihood, model)
fit_gpytorch_model(mll)

# 定义参考点和帕累托前沿
ref_point = torch.tensor([-1.0, -1.0])  # 参考点，根据问题设置
pareto_front = ParetoFront(model=model, ref_point=ref_point)

# 定义超体积改进采集函数
acq_func = qExpectedHypervolumeImprovement(
    model=model,
    ref_point=ref_point,
    pareto_front=pareto_front,
    sampler=torch.quasirandom.SobolQMCNormalSampler(num_samples=128),
)

# 优化采集函数，获取候选点
bounds = torch.tensor([[0.0, 0.0], [1.0, 1.0]])
candidate, acq_value = optimize_acqf(
    acq_function=acq_func,
    bounds=bounds,
    q=2,  # 每次选择2个候选点
    num_restarts=20,
    raw_samples=100,
)

print(f"Next candidate points: {candidate}")

// 重点标注核心逻辑： // 1. 生成包含两个目标函数的训练数据 // 2. 构建多输出高斯过程模型，处理多个目标函数 // 3. 定义参考点和帕累托前沿，用于衡量多目标优化的效果 // 4. 使用qExpectedHypervolumeImprovement作为采集函数，它衡量了候选点对超体积的改进 // 5. 优化采集函数，获取多个候选点进行评估

性能优化技巧

批量优化策略：利用botorch/generation/sampling.py中的批量采样方法，可以同时选择多个候选点进行评估，显著提高优化效率。
固定基样本技术：固定基样本策略可以提高准蒙特卡洛采样的稳定性。通过固定采样的基样本，可以减少采样过程中的随机性，使优化过程更加稳定。

从图中可以看出，使用固定基样本的qMC采样（绿色曲线）相比普通qMC采样（橙色曲线）具有更稳定的性能，更接近解析解（黑色虚线）。

模型选择与调优：根据问题的特点选择合适的概率模型，并对模型参数进行调优，可以提高模型的预测性能和优化效果。例如，对于高维问题，可以考虑使用稀疏高斯过程或其他降维方法。

快速回顾

BoTorch支持多目标优化，提供了帕累托优化和超体积改进等方法。
批量优化策略和固定基样本技术可以提高优化效率和稳定性。
合理选择和调优概率模型对优化效果至关重要。

五、生态拓展：BoTorch的第三方扩展与社区资源

第三方扩展库

除了BoTorch官方提供的功能外，还有一些第三方扩展库可以增强其功能：

Ax：Ax是一个基于BoTorch的端到端机器学习平台，提供了友好的用户界面和丰富的优化算法，支持多目标优化、约束优化等复杂场景。
BoTorch Community：BoTorch Community是一个社区驱动的扩展库，提供了许多额外的采集函数、模型和工具，如BLL Thompson Sampling、Heterogeneous MTGP等。

社区资源与学习路径

BoTorch拥有活跃的社区和丰富的学习资源，帮助用户从入门到进阶：

官方文档：BoTorch的官方文档提供了详细的API说明和教程，是学习BoTorch的基础资源。
教程与案例：官方提供了多个教程和案例，涵盖了从基础应用到高级功能的各个方面，如超参数调优、多目标优化等。
GitHub仓库：BoTorch的GitHub仓库是获取最新代码和参与社区贡献的重要渠道。仓库地址为：https://gitcode.com/gh_mirrors/bo/botorch。
学习路径图：
- 入门阶段：学习贝叶斯优化的基本概念，掌握BoTorch的安装和基础使用方法。
- 进阶阶段：深入学习BoTorch的核心模块和高级功能，如多目标优化、批量优化等。
- 专家阶段：参与社区贡献，开发自定义的模型和采集函数，解决实际应用中的复杂问题。