深度解析Scipy-2017机器学习教程中的决策树与随机森林

2025-07-10 17:17:17作者：明树来

决策树基础概念

决策树是一种直观且易于理解的机器学习算法，它通过一系列"if-else"规则来做出决策，就像人类做决定的过程一样。决策树的核心思想是通过对数据特征进行二元分割来构建预测模型。

决策树的特点

数据预处理简单：能够处理各种类型的数据（连续型和离散型），且对特征缩放不敏感
非参数模型：模型复杂度会随着数据量的增加而增加，没有固定的参数数量限制
可解释性强：决策规则清晰，容易理解

决策树回归

决策树不仅可以用于分类，也可以用于回归任务。在回归问题中，决策树通过将输入空间划分为多个区域，并在每个区域内预测一个常数值（通常是该区域内目标值的平均值）。

from sklearn.tree import DecisionTreeRegressor

reg = DecisionTreeRegressor(max_depth=5)
reg.fit(X, y)

决策树回归的优缺点

优点：

能够捕捉非线性关系
对异常值不敏感
不需要特征缩放

缺点：

容易过拟合（表现为预测结果中的"尖峰"）
在某些区域可能欠拟合（表现为预测结果中的"平坦"部分）

决策树分类

决策树分类器的工作原理与回归类似，但在每个叶节点上预测的是多数类别而不是平均值。

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(max_depth=5)
clf.fit(X_train, y_train)

关键参数：max_depth

max_depth参数控制树的深度，直接影响模型的复杂度：

深度过小：模型欠拟合，无法捕捉数据中的复杂模式
深度过大：模型过拟合，对训练数据中的噪声过于敏感

随机森林

随机森林通过构建多棵决策树并平均它们的预测结果来改善单棵决策树的过拟合问题。每棵树使用：

不同的数据子集（有放回抽样）
不同的特征子集（无放回抽样）

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_estimators=200)
rf.fit(X_train, y_train)

随机森林的优势

降低方差：通过平均多棵树的预测结果，减少过拟合
提高泛化能力：比单棵决策树表现更稳定
特征重要性：可以评估每个特征对预测的贡献程度

梯度提升树

梯度提升是另一种集成方法，它通过顺序构建决策树来迭代改进模型。每棵树都试图纠正前一棵树的错误。

from sklearn.ensemble import GradientBoostingClassifier

gbc = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1)
gbc.fit(X_train, y_train)

关键参数

n_estimators：树的数量
learning_rate：每棵树对最终结果的贡献程度
max_depth：每棵树的深度

模型选择与调优

使用网格搜索交叉验证可以找到最优的模型参数组合：

from sklearn.model_selection import GridSearchCV

parameters = {'max_depth':[5,7,9], 'learning_rate':[0.1,0.01]}
clf_grid = GridSearchCV(gbc, parameters)
clf_grid.fit(X_train, y_train)

特征重要性分析

随机森林和梯度提升树都可以计算特征重要性，这有助于理解哪些特征对预测最有贡献：

importances = rf.feature_importances_
plt.bar(range(len(importances)), importances)

实践建议

对于小型数据集，优先尝试梯度提升树
对于大型数据集，随机森林通常更高效
始终使用交叉验证来评估模型性能
关注特征重要性，可以帮助特征工程和模型解释

决策树及其集成方法在实际应用中表现优异，特别是在需要模型可解释性的场景中。通过合理调参和集成，可以获得既准确又稳定的预测模型。

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

C++

674

1.32 K