InterpretML v0.6.9版本发布：可解释机器学习的重要升级

2025-06-09 14:57:15作者：柏廷章Berta

InterpretML是一个专注于可解释机器学习的开源项目，它提供了一系列工具和方法，帮助数据科学家和机器学习工程师构建既准确又易于理解的模型。最新发布的v0.6.9版本带来了一系列重要的改进和新功能，特别是在处理分类变量和缺失值方面有了显著提升。

核心改进：分类变量处理与缺失值策略

本次版本最引人注目的改进之一是采用了Fischer(1958)方法来处理分类变量。这种方法与LightGBM使用的方法相同，通过统计方法为每个类别分配适当的值，使得模型能够更好地理解和利用分类特征的信息。

为了进一步优化分类变量的处理，新版本引入了三个关键参数：

gain_scale：控制分类变量增益的缩放比例
min_cat_samples：设置处理分类变量时的最小样本量阈值
cat_smooth：添加平滑项以防止过拟合

在缺失值处理方面，v0.6.9提供了四种新的处理策略：

"low"：将缺失值视为最低可能值
"high"：将缺失值视为最高可能值
"separate"：为缺失值创建单独的分箱
"gain"：基于信息增益自动确定最佳处理方式

模型优化与性能提升

新版本在模型训练过程中增加了一个重要步骤：在拟合模型其他部分后，重新拟合截距项。这一改进可以显著提高截距值的准确性，从而提升整体模型性能。

在性能优化方面，v0.6.9默认启用了AVX-512指令集，这可以充分利用现代CPU的向量化计算能力，大幅提升计算效率。同时，默认的EBM(Explainable Boosting Machine)参数也进行了调整：

outer_bags从默认值增加到16
n_jobs设置为-1以充分利用所有可用的CPU核心

内存管理与错误修复

开发团队修复了净化函数(purification function)中的内存泄漏问题，提高了长时间运行时的内存使用效率。这对于需要处理大规模数据集或长时间运行模型训练的用户来说是一个重要的改进。

总结

InterpretML v0.6.9通过引入先进的分类变量处理方法、灵活的缺失值处理策略以及多项性能优化，进一步巩固了其作为可解释机器学习领域重要工具的地位。这些改进使得模型不仅保持高准确性，同时也更容易理解和解释，这对于需要模型透明性的应用场景尤为重要。

对于现有的InterpretML用户，建议升级到新版本以获得更好的性能和更丰富的功能。对于新用户，v0.6.9版本提供了一个更加成熟和强大的平台来构建可解释的机器学习模型。

interpret

Fit interpretable models. Explain blackbox machine learning.

项目地址：https://gitcode.com/gh_mirrors/in/interpret

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

457

439

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。