首页
/ CatBoost 1.2.8版本发布:全面支持Python 3.13与NumPy 2.x

CatBoost 1.2.8版本发布:全面支持Python 3.13与NumPy 2.x

2025-06-07 10:19:48作者:伍希望

项目简介

CatBoost是由Yandex开发的一款高性能梯度提升决策树(GBDT)算法库,以其出色的处理类别特征能力、高效的训练速度以及优秀的预测性能而闻名。作为机器学习领域的重要工具,CatBoost特别适合处理包含类别型特征的数据集,在推荐系统、金融风控、广告点击率预测等多个领域都有广泛应用。

核心更新内容

Python生态兼容性提升

本次1.2.8版本最重要的改进之一是全面支持最新的Python 3.13环境,这确保了开发者可以在最新的Python环境中无缝使用CatBoost。同时,该版本也正式支持NumPy 2.x系列,为数据科学工作流提供了更好的兼容性。

值得注意的是,随着Python生态的发展,1.2.8版本已经放弃了对Python 3.7的支持,建议仍在使用旧版本Python的用户考虑升级到3.8及以上版本。

GPU计算优化

在GPU计算方面,本次更新有两项重要改进:

  1. 当在GPU上计算自定义指标时,现在会正确使用实现类的名称作为字符串ID进行存储。这一改进使得在分布式训练或模型保存/加载场景下,自定义指标的处理更加可靠。

  2. 改进了GPU上自定义指标代码的异常传播机制。现在当自定义指标代码出现错误时,系统能够正确捕获并传播异常信息,显著提升了调试效率。

Apache Spark集成改进

对于大数据处理场景,CatBoost的Spark集成模块也有显著改进:

  1. 修复了训练完成后工作节点可能挂起的问题,提高了集群资源的利用率。

  2. 移除了对Spark 2.x系列的支持,专注于维护Spark 3.x及更新版本的兼容性。这一变化反映了Spark社区的发展趋势,建议仍在使用Spark 2.x的用户考虑升级。

功能增强与优化

R语言包改进

R语言接口现在支持character和factor类型作为目标变量,这一改进特别适用于分类问题场景。开发者现在可以直接使用字符型或因子型变量作为分类目标,而无需先进行数值编码,简化了数据预处理流程。

性能优化

针对特定回归任务,在GPU上训练时,leaf_estimation_iterations参数的默认值得到了优化。这一调整可以自动为回归任务提供更好的初始参数配置,减少调参工作量,同时提升模型性能。

底层架构与构建系统

构建工具升级

  1. 从内部维护的Cython 0.29.x迁移到了官方的Cython 3.0.10+版本,这一变化带来了更好的兼容性和性能。

  2. 构建系统从Conan 1.x升级到了Conan 2.x,利用了新一代依赖管理工具的优势。

  3. 更新了OpenSSL到3.0.15版本,提升了安全性和稳定性。

CUDA相关优化

默认情况下不再输出详细的ptxas统计信息,减少了构建日志的冗余输出,使关键信息更加突出。

重要问题修复

  1. 修复了在包含类别特征的量化数据集上训练时可能发生的崩溃问题。

  2. 解决了在不支持SSE4指令集的CPU(包括所有ARM架构处理器)上计算概率预测时的问题。之前概率为0的值会被错误地计算为NaN,现在可以正确输出。

  3. 修复了加载稀疏数据集时可能出现的竞态条件问题,提高了数据加载的稳定性。

  4. 对于JVM应用接口,修正了评估器类型相关方法和类别特征哈希方法的可见性问题,这些方法之前被错误地标记为private。

总结

CatBoost 1.2.8版本在保持核心算法优势的同时,重点提升了与现代Python和Spark生态的兼容性,改进了GPU计算和R语言接口的易用性,并修复了多个关键问题。这些改进使得CatBoost在各种机器学习场景下的表现更加稳定可靠,特别是对于需要处理类别特征的大规模数据应用场景。建议所有CatBoost用户考虑升级到这一版本,以获得更好的性能和更完善的功能支持。

登录后查看全文
热门项目推荐

热门内容推荐

项目优选

收起
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
149
1.95 K
kernelkernel
deepin linux kernel
C
22
6
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
980
395
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
192
274
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
931
555
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
145
190
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Jupyter Notebook
75
66
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
65
518
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.11 K
0