LightGBM 量化梯度与类别特征兼容性问题分析

2025-05-13 20:00:14作者：裘晴惠Vivianne

A fast, distributed, high performance gradient boosting (GBT, GBDT, GBRT, GBM or MART) framework based on decision tree algorithms, used for ranking, classification and many other machine learning tasks.

项目地址：https://gitcode.com/GitHub_Trending/li/LightGBM

问题概述

在使用微软开源的LightGBM机器学习框架时，当同时启用量化梯度(use_quantized_grad=True)和使用原生类别特征(categorical feature)时，程序会出现段错误(segfault)导致崩溃。这个问题在回归和分类任务中都会出现，只要数据集中至少包含一个类别特征就会触发。

技术背景

LightGBM作为一款高效的梯度提升决策树框架，提供了多种优化技术来提升训练速度和减少内存使用：

量化梯度技术：通过降低梯度计算的精度来减少内存占用和加速计算
原生类别特征支持：无需对类别变量进行独热编码，可直接处理

然而，这两种优化技术在实现上存在兼容性问题，导致程序崩溃。

问题复现

通过以下Python代码可以稳定复现该问题：

import numpy as np
import lightgbm as lgb

# 生成包含类别特征的随机数据
rng = np.random.default_rng(1)
X = rng.choice([1, 2], size=(10000, 1))  # 类别特征
y = rng.choice([0, 1], size=(10000,))    # 二分类标签

# 使用训练API
train_set = lgb.Dataset(
    data=X,
    feature_name=["A"],
    categorical_feature=["A"],  # 指定为类别特征
    label=y,
    params={"random_seed": 1},
    free_raw_data=False,
).construct()

# 启用量化梯度训练会导致崩溃
booster = lgb.train(
    params={
        "objective": "binary",
        "use_quantized_grad": True,  # 问题根源
        "random_state": 1,
    },
    num_boost_round=10,
    train_set=train_set,
)

临时解决方案

在官方修复此问题前，用户可以采用以下两种临时解决方案：

禁用量化梯度：设置use_quantized_grad=False
使用有序类别特征：将类别特征转换为有序类别

# 使用有序类别特征的解决方案
from pandas.api.types import CategoricalDtype

# 将普通类别特征转换为有序类别
X = X.copy()
X[cat_columns] = X[cat_columns].astype(CategoricalDtype(ordered=True))