首页
/ 5分钟训练超1小时效果!AutoGluon 1.3.0震撼发布:自动化机器学习框架的速度与精度革命

5分钟训练超1小时效果!AutoGluon 1.3.0震撼发布:自动化机器学习框架的速度与精度革命

2026-02-04 04:01:25作者:凌朦慧Richard

你还在为机器学习模型训练耗时太久而烦恼吗?还在纠结如何在有限时间内获得最佳预测效果?AutoGluon 1.3.0版本的发布彻底解决了这一痛点!作为一款支持图像、文本、时间序列和表格数据的自动化机器学习(AutoML)框架,AutoGluon 1.3.0带来了稳定性与可用性的重大提升,同时进行了大量bug修复和依赖项升级。本文将详细介绍这一版本的核心亮点,帮助你快速掌握如何利用AutoGluon提升机器学习工作效率。

AutoGluon 1.3.0核心亮点概览

AutoGluon 1.3.0版本包含了来自20位贡献者的144次提交,在多个方面实现了显著突破。其中最引人注目的是AutoGluon-Tabular在2025年AutoML基准测试(AutoML Benchmark 2025)中的卓越表现,以及MultiModal模块的"Bag of Tricks"更新。此外,版本还对Tabular和TimeSeries模块进行了功能增强和bug修复,并更新了大量依赖项以提升系统稳定性和性能。

AutoGluon-Tabular:AutoML基准测试中的绝对王者

在2025年AutoML基准测试中,AutoGluon 1.2版本表现出了令人瞩目的性能,成为当前最先进的AutoML框架。这一测试结果同样适用于最新的1.3.0版本,充分证明了AutoGluon在自动化机器学习领域的领先地位。

速度与精度的完美平衡

AutoGluon在测试中展现出了惊人的速度与精度平衡能力。具体而言,使用AutoGluon仅需5分钟的训练时间,就能超越其他AutoML系统1小时训练的效果。这一突破性成果意味着,即使用户只有有限的计算资源和时间,也能获得高质量的机器学习模型。

卓越的帕累托效率

AutoGluon在所有评估的预设和时间约束下,在质量和速度方面都表现出了帕累托效率。这意味着在给定的时间预算内,AutoGluon能够提供最佳的预测性能;而在给定的性能要求下,AutoGluon所需的训练时间最短。

超高的推理吞吐量

当使用presets="high", infer_limit=0.0001(在图表中标记为HQIL)参数时,AutoGluon实现了超过10,000样本/秒的推理吞吐量,同时仍能超越所有其他方法的性能。这一特性使得AutoGluon特别适合处理大规模数据集和实时预测场景。

无与伦比的稳定性

AutoGluon是最稳定的AutoML系统。在"best"和"high"预设下,当时间预算超过5分钟时,AutoGluon的失败率为0。这意味着用户可以放心地将AutoGluon应用于关键业务场景,无需担心模型训练过程中出现意外错误。

AutoGluon在AutoML基准测试中的性能表现

AutoGluon Multimodal:"Bag of Tricks"更新带来性能飞跃

AutoGluon 1.3.0版本为Multimodal模块(AutoMM)带来了全面的"Bag of Tricks"更新。这一重大增强显著提高了处理图像、文本和表格数据组合时的多模态AutoML性能。更新实现了多种策略,包括多模态模型融合技术、多模态数据增强、跨模态对齐、表格数据序列化、更好的缺失模态处理,以及一个集成了这些技术的集成学习器,以实现最佳性能。

简单易用的新功能

用户现在可以通过一个简单的参数来访问这些强大的新功能。只需在初始化MultiModalPredictor时设置use_ensemble=True参数,即可启用集成学习器,从而充分利用"Bag of Tricks"更新带来的性能提升。

from autogluon.multimodal import MultiModalPredictor
predictor = MultiModalPredictor(label="label", use_ensemble=True)
predictor.fit(train_data=train_data)

要使用这一功能,用户需要先按照这里的说明下载检查点。

技术细节与研究支持

"Bag of Tricks"更新的技术细节在研究论文《Bag of Tricks for Multimodal AutoML with Image, Text, and Tabular Data》中有详细描述。这一论文深入探讨了多模态学习中的各种优化策略,为AutoGluon Multimodal模块的性能提升提供了坚实的理论基础。

重要变更与迁移指南

已移除的方法和模型

在1.3.0版本中,以下已弃用的TabularPredictor方法被正式移除(在1.0.0版本中弃用,在1.2.0版本中引发警告,在1.3.0版本中移除)。请使用新名称替代:

  • persist_models -> persist
  • unpersist_models -> unpersist
  • get_model_names -> model_names
  • get_model_best -> model_best
  • get_pred_from_proba -> predict_from_proba
  • get_model_full_dict -> model_refit_map
  • get_oof_pred_proba -> predict_proba_oof
  • get_oof_pred -> predict_oof
  • get_size_disk_per_file -> disk_usage_per_file
  • get_size_disk -> disk_usage
  • get_model_names_persisted -> model_names(persisted=True)

此外,Tabular模块中移除了两个不常用或过时的模型:

  1. vowpalwabbit模型(键:VW)和可选依赖项(autogluon.tabular[vowpalwabbit]),因为AutoGluon中实现的该模型未被广泛使用且基本未维护。
  2. TabTransformer模型(键:TRANSF),因为AutoGluon中实现的该模型已严重过时,自2020年以来未维护,且性能通常不如FT-Transformer(键:FT_TRANSFORMER)。

即将到来的变更预告

以下逻辑从1.3.0版本开始弃用,并将记录FutureWarning。功能将在未来版本中更改:

  • FutureWarningTabularPredictor.delete_models()在未来版本中将默认dry_run=False(当前默认dry_run=True)。请确保显式指定dry_run=True以保持现有逻辑在未来版本中继续有效。

各模块详细更新

Tabular模块新特性

Tabular模块在1.3.0版本中引入了多项重要新功能:

  1. 通过分箱添加对回归分层拆分的支持。
  2. 添加TabularPredictor.model_hyperparameters(model)方法,返回模型的超参数。
  3. 添加TabularPredictor.model_info(model)方法,返回模型的元数据。
  4. (实验性)添加plot_leaderboard.py以可视化预测器在训练时间内的性能。
  5. 重大)添加内部ag_model_registry以改进对支持的模型系列及其功能的跟踪。
  6. 添加raise_on_model_failure TabularPredictor.fit参数,默认为False。如果为True,将在模型拟合过程中引发异常时立即引发原始异常,而不是继续下一个模型。在使用调试器尝试找出模型失败原因时,将此参数设置为True非常有帮助,因为否则异常会被AutoGluon处理,这在调试时并不理想。

TimeSeries模块更新

1.3.0版本为TimeSeries模块带来了众多可用性改进和bug修复。在内部,团队完成了核心类的重大重构,并引入了静态类型检查,以简化未来的贡献、加速开发并更早地发现潜在bug。

主要新功能包括:

  1. 新增关于添加自定义预测模型的教程
  2. evaluateleaderboard中添加cutoff支持
  3. TimeSeriesPredictor添加horizon_weight支持
  4. 为TimeSeriesPredictor添加make_future_data_frame方法
  5. 重构集成基类并添加新的集成方法

依赖项更新

AutoGluon 1.3.0更新了众多依赖项,以确保系统稳定性和性能优化。主要更新包括:

  • numpy: >=1.25.0,<2.3.0
  • scikit-learn: >=1.4.0,<1.7.0
  • torch: >=2.2,<2.7
  • lightning: >=2.2,<2.7
  • xgboost: >=2.0,<3.1
  • lightgbm: >=4.0,<4.7

完整的依赖项更新列表请参考官方文档的依赖项部分

如何开始使用AutoGluon 1.3.0

要开始使用AutoGluon 1.3.0,最简单的方法是通过pip安装:

pip install autogluon==1.3.0

对于不同平台和环境的详细安装说明,请参考以下官方文档:

如果你是首次使用AutoGluon,建议从快速入门教程开始,其中包含了表格数据、时间序列、多模态数据等多个方向的示例。

特别鸣谢

AutoGluon 1.3.0的发布离不开众多贡献者的努力。特别感谢:

  • Zhiqiang Tang实现了AutoGluon MultiModal的"Bag of Tricks",显著增强了多模态性能。
  • Caner Turkmen领导了timeseries模块的重构和内部逻辑改进工作。
  • Celestino作为新贡献者提供了众多错误报告、建议和代码清理。

完整的贡献者列表可在官方发布说明中找到。

总结

AutoGluon 1.3.0版本通过在AutoML基准测试中的卓越表现,证明了其在速度和精度方面的革命性进步。5分钟训练超1小时效果的能力,以及超过10,000样本/秒的推理吞吐量,使AutoGluon成为处理各种机器学习任务的理想选择。Multimodal模块的"Bag of Tricks"更新进一步扩展了AutoGluon在多模态数据处理方面的能力。

无论你是机器学习新手还是经验丰富的专家,AutoGluon 1.3.0都能帮助你更快速、更高效地构建高质量的机器学习模型。立即尝试AutoGluon 1.3.0,体验自动化机器学习的最新进展!

更多详细信息和示例,请参考AutoGluon官方文档和教程:

登录后查看全文
热门项目推荐
相关项目推荐