CatBoost 1.2.8版本发布：全面支持Python 3.13与NumPy 2.x

2025-06-07 03:43:37作者：伍希望

项目简介

CatBoost是由Yandex开发的一款高性能梯度提升决策树(GBDT)算法库，以其出色的处理类别特征能力、高效的训练速度以及优秀的预测性能而闻名。作为机器学习领域的重要工具，CatBoost特别适合处理包含类别型特征的数据集，在推荐系统、金融风控、广告点击率预测等多个领域都有广泛应用。

核心更新内容

Python生态兼容性提升

本次1.2.8版本最重要的改进之一是全面支持最新的Python 3.13环境，这确保了开发者可以在最新的Python环境中无缝使用CatBoost。同时，该版本也正式支持NumPy 2.x系列，为数据科学工作流提供了更好的兼容性。

值得注意的是，随着Python生态的发展，1.2.8版本已经放弃了对Python 3.7的支持，建议仍在使用旧版本Python的用户考虑升级到3.8及以上版本。

GPU计算优化

在GPU计算方面，本次更新有两项重要改进：

当在GPU上计算自定义指标时，现在会正确使用实现类的名称作为字符串ID进行存储。这一改进使得在分布式训练或模型保存/加载场景下，自定义指标的处理更加可靠。
改进了GPU上自定义指标代码的异常传播机制。现在当自定义指标代码出现错误时，系统能够正确捕获并传播异常信息，显著提升了调试效率。

Apache Spark集成改进

对于大数据处理场景，CatBoost的Spark集成模块也有显著改进：

修复了训练完成后工作节点可能挂起的问题，提高了集群资源的利用率。
移除了对Spark 2.x系列的支持，专注于维护Spark 3.x及更新版本的兼容性。这一变化反映了Spark社区的发展趋势，建议仍在使用Spark 2.x的用户考虑升级。

功能增强与优化

R语言包改进

R语言接口现在支持character和factor类型作为目标变量，这一改进特别适用于分类问题场景。开发者现在可以直接使用字符型或因子型变量作为分类目标，而无需先进行数值编码，简化了数据预处理流程。

性能优化

针对特定回归任务，在GPU上训练时，leaf_estimation_iterations参数的默认值得到了优化。这一调整可以自动为回归任务提供更好的初始参数配置，减少调参工作量，同时提升模型性能。

底层架构与构建系统

构建工具升级

从内部维护的Cython 0.29.x迁移到了官方的Cython 3.0.10+版本，这一变化带来了更好的兼容性和性能。
构建系统从Conan 1.x升级到了Conan 2.x，利用了新一代依赖管理工具的优势。
更新了OpenSSL到3.0.15版本，提升了安全性和稳定性。

CUDA相关优化

默认情况下不再输出详细的ptxas统计信息，减少了构建日志的冗余输出，使关键信息更加突出。

重要问题修复

修复了在包含类别特征的量化数据集上训练时可能发生的崩溃问题。
解决了在不支持SSE4指令集的CPU（包括所有ARM架构处理器）上计算概率预测时的问题。之前概率为0的值会被错误地计算为NaN，现在可以正确输出。
修复了加载稀疏数据集时可能出现的竞态条件问题，提高了数据加载的稳定性。
对于JVM应用接口，修正了评估器类型相关方法和类别特征哈希方法的可见性问题，这些方法之前被错误地标记为private。

总结

CatBoost 1.2.8版本在保持核心算法优势的同时，重点提升了与现代Python和Spark生态的兼容性，改进了GPU计算和R语言接口的易用性，并修复了多个关键问题。这些改进使得CatBoost在各种机器学习场景下的表现更加稳定可靠，特别是对于需要处理类别特征的大规模数据应用场景。建议所有CatBoost用户考虑升级到这一版本，以获得更好的性能和更完善的功能支持。

登录后查看全文

CatBoost 1.2.8版本发布：全面支持Python 3.13与NumPy 2.x

项目简介

核心更新内容

Python生态兼容性提升

GPU计算优化

Apache Spark集成改进

功能增强与优化

R语言包改进

性能优化

底层架构与构建系统

构建工具升级

CUDA相关优化

重要问题修复

总结

热门内容推荐

最新内容推荐

项目优选

CatBoost 1.2.8版本发布：全面支持Python 3.13与NumPy 2.x

项目简介

核心更新内容

Python生态兼容性提升

GPU计算优化

Apache Spark集成改进

功能增强与优化

R语言包改进

性能优化

底层架构与构建系统

构建工具升级

CUDA相关优化

重要问题修复

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选