AutoGluon项目中FastAI与PyTorch模型在best_quality预设下的资源分配问题分析

2025-05-26 02:40:54作者：郜逊炳

问题背景

在AutoGluon项目的最新版本中，用户报告了一个关于深度学习模型训练时资源分配异常的问题。具体表现为：当使用best_quality预设并结合超参数优化(HPO)时，FastAI和PyTorch神经网络模型无法正常保存训练结果，同时LightGBM模型无法按预期使用GPU加速。

问题现象详细描述

正常工作情况

当用户使用以下简洁方式调用TabularPredictor时，所有模型（包括FastAI和PyTorch NN）都能正常工作：

predictor = TabularPredictor(label=label, eval_metric='mcc').fit(
    train_data, 
    time_limit=time_limit, 
    num_gpus=1, 
    num_cpus=16, 
    presets='best_quality', 
    ag_args_fit={"ag.num_gpus": 1, "num_cpus": 16}
)

异常工作情况

但当用户尝试使用更详细的超参数配置方式时，出现了问题：

hyperparameters = {
    'FASTAI': {}, 
    'NN_TORCH': {},
    'CAT': {},
    'GBM': {},
}
predictor = TabularPredictor(label=label, eval_metric='mcc').fit(
    train_data, 
    time_limit=9000, 
    hyperparameters=hyperparameters, 
    hyperparameter_tune_kwargs='auto', 
    num_gpus=1, 
    num_cpus=16, 
    presets='best_quality', 
    ag_args_fit={"ag.num_gpus": 1, "num_cpus": 16}
)

错误分析

从日志中可以发现两个主要问题：

CPU资源类型错误：系统报错显示num_cpus参数被传递为浮点数而非整数，导致模型初始化失败。具体错误信息为：

TypeError: `num_cpus` must be an int! Found: <class 'float'> | Value: 16.0

模型结果保存失败：大量实验结果显示无法找到结果文件：

FileNotFoundError('Could not fetch metrics for 5510c76c: both result.json and progress.csv were not found at ...')

技术原理分析

这个问题涉及到AutoGluon的资源管理机制：

资源传递流程：当用户指定num_cpus=16时，这个参数在内部传递过程中被意外转换为浮点数16.0，而FoldFittingStrategy类严格要求CPU核心数必须为整数类型。
HPO与bagging的交互：在超参数优化过程中，AutoGluon会创建多个实验来探索不同的超参数组合。当资源参数类型不匹配时，这些实验无法正常初始化，导致无法生成结果文件。
GPU资源分配：虽然用户明确指定了GPU资源，但由于上述初始化失败，模型甚至无法进入实际的训练阶段，更谈不上利用GPU加速。