机器学习项目笔记：深入理解CART算法原理与实现

2025-06-07 07:01:42作者：董宙帆

一、CART算法概述

CART（Classification and Regression Trees，分类与回归树）是决策树算法家族中的重要成员，由Leo Breiman等人在1984年提出。作为机器学习中的经典算法，CART以其简单直观、易于解释的特点，在实际应用中广受欢迎。

CART算法的核心特点包括：

二叉树结构：每个非叶节点只有两个分支，形成严格的二叉树结构
双重功能：既可以处理分类问题，也可以处理回归问题
递归分割：采用二分递归分割技术，不断将样本集划分为更纯的子集
特征选择：分类问题使用基尼系数，回归问题使用最小方差准则

二、基尼系数详解

基尼系数是CART算法用于分类问题时选择分裂特征的核心指标，它衡量的是数据集的不纯度。让我们深入理解这个重要概念：

2.1 基尼系数的数学定义

对于数据集D，其基尼系数定义为：

Gini(D) = 1 - \sum_{k=1}^y p_k^2

其中：

$y$ 是类别总数
$p_{k}$ 是第k类样本在数据集D中的比例

2.2 基尼系数的直观理解

基尼系数可以理解为：从数据集中随机抽取两个样本，它们属于不同类别的概率。因此：

当数据集完全纯净（所有样本属于同一类）时，基尼系数为0
当各类别均匀分布时，基尼系数达到最大值

2.3 特征选择的基尼指数

对于特征A的可能取值a，将数据集D划分为D1和D2后，基尼指数定义为：

Gini_{index} = \sum_{v=1}^V \frac{|D^v|}{|D|} Gini(D^v)

选择使基尼指数最小的特征和切分点作为最优分裂条件。

三、CART分类树的构建过程

3.1 算法输入与输出

输入参数：

训练数据集D
停止条件（可配置）：
- 节点样本数小于阈值
- 基尼系数小于阈值（纯度足够高）
- 无更多可用特征

输出结果：

构建完成的CART分类树模型

3.2 详细构建步骤

初始化：从根节点开始，包含全部训练数据
特征选择：
- 对当前节点的每个特征A，计算所有可能切分点a的基尼指数
- 选择使基尼指数最小的(A,a)组合作为最优分裂条件
节点分裂：
- 根据最优分裂条件将当前节点数据划分为D1和D2
- 生成左右两个子节点，分别包含D1和D2
递归构建：
- 对每个子节点重复步骤2-3
- 直到满足任一停止条件
叶节点标记：
- 将最终叶节点标记为其中多数样本的类别

3.3 示例说明

假设我们有一个简单的二维数据集，包含两个特征X1和X2，以及二分类标签。构建过程可能如下：

首先在所有可能的(X1, a)和(X2, b)组合中，找到使基尼指数最小的分裂点
假设发现"X1 ≤ 0.5"是最佳分裂条件
将数据分为X1 ≤ 0.5和X1 > 0.5两部分
在每个子集中重复上述过程，直到满足停止条件

四、CART回归树的构建过程

4.1 与分类树的区别

CART回归树与分类树的主要区别在于：

目标变量：回归树处理连续值输出，分类树处理离散类别
分裂准则：回归树使用最小化平方误差，而非基尼系数
叶节点输出：回归树叶节点输出区域内样本的均值

4.2 回归树构建算法

最优分裂选择：寻找使以下损失函数最小的特征j和切分点s：
$\min_{j,s} \left[ \min_{c_1} \sum_{x_i \in R_1(j,s)} (y_i - c_1)^2 + \min_{c_2} \sum_{x_i \in R_2(j,s)} (y_i - c_2)^2 \right]$
区域划分：
- $R_1(j,s) = \{x | x^{(j)} ≤ s\}$
- $R_2(j,s) = \{x | x^{(j)} > s\}$
输出值计算：每个区域的输出值为该区域内样本y值的均值：
$c_m = \frac{1}{N_m} \sum_{x_i \in R_m(j,s)} y_i, \quad m=1,2$
递归构建：对每个子区域重复上述过程，直到满足停止条件

4.3 回归树预测

最终回归树模型表示为：

f(x) = \sum_{m=1}^M c_m I(x \in R_m)

其中 $I ()$ 是指示函数，当x属于区域 $R_{m}$ 时值为1，否则为0。

五、CART算法的优势与应用

5.1 主要优势

处理混合类型数据：能同时处理数值型和类别型特征
非线性关系建模：不需要假设特征与目标之间的线性关系
自动特征选择：通过分裂过程自动选择重要特征
鲁棒性强：对异常值和缺失数据有一定容忍度
可解释性好：树形结构直观易懂

5.2 典型应用场景

分类问题：
- 客户流失预测
- 信用风险评估
- 疾病诊断
回归问题：
- 房价预测
- 销量预测
- 股票价格分析
特征重要性评估：
- 通过特征在树中的分裂次数和效果评估特征重要性

六、实现注意事项

过拟合问题：
- 通过预剪枝（提前停止）或后剪枝（构建后修剪）控制树深度
- 设置最小叶节点样本数等停止条件
连续特征处理：
- 对连续特征需要寻找最优切分点
- 可通过排序后取相邻值中点作为候选切分点
类别特征处理：
- 对多类别特征可采用二分法处理
- 对于有序类别可保持顺序信息
缺失值处理：
- 可采用替代分裂或默认方向处理缺失值
- 也可在预处理阶段进行填充

通过深入理解CART算法的原理和实现细节，我们可以更好地应用这一强大工具解决实际的机器学习问题。

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。