GPyTorch中KeOps内核的_diagonal()方法问题解析

2025-06-19 22:02:53作者：柏廷章Berta

问题背景

在GPyTorch深度学习框架中，当使用KeOps内核计算协方差矩阵时，调用_diagonal()方法会出现错误。这个问题在使用KeOps内核进行多任务/多输出近似高斯过程(Approximate GP)和随机变分推断(SVI)时尤为明显。

问题重现

通过以下代码可以重现该问题：

import gpytorch
import torch

train_x = torch.rand(100,2)
cov1 = gpytorch.kernels.RBFKernel()(train_x)  # 标准RBF内核
cov2 = gpytorch.kernels.keops.RBFKernel()(train_x)  # KeOps RBF内核

cov1._diagonal()  # 正常返回形状为(100,)的张量
cov2._diagonal()  # 抛出RuntimeError异常

错误信息表明KeOps内核没有正确处理对角线计算，期望得到形状为torch.Size([100])的输出，但实际得到了完整的100×100协方差矩阵。

技术分析

内核计算机制差异

标准内核计算：GPyTorch的标准内核实现会显式处理对角线计算，通过diag参数区分是否需要计算整个矩阵还是仅对角线元素。
KeOps内核计算：当前的KeOps内核实现没有正确处理diag参数，导致即使请求对角线元素时也会计算整个矩阵，进而引发错误。

问题根源

问题的核心在于KeOps内核的forward方法没有实现diag参数的分支处理。在标准内核中，当diag=True时，会优化计算仅返回对角线元素，而KeOps内核则始终返回完整的KernelLinearOperator对象。

解决方案

针对该问题，正确的修复方式是在KeOps内核的forward方法中显式处理diag参数：

def forward(self, x1, x2, diag=False, **kwargs):
    x1_ = x1 / self.lengthscale
    x2_ = x2 / self.lengthscale
    K = KernelLinearOperator(x1_, x2_, covar_func=_covar_func, **kwargs)    
    return K.diagonal() if diag else K

这种修改确保了：