SHAP可视化全攻略：force_plot到beeswarm_plot

2026-02-05 05:15:15作者：舒璇辛Bertina

引言：为什么需要SHAP可视化？

在机器学习模型日益复杂的今天，理解模型预测结果变得越来越重要。SHAP（SHapley Additive exPlanations）作为一种基于博弈论的解释方法，能够帮助我们理解每个特征对模型预测的影响。而SHAP可视化工具则将这些复杂的数值转化为直观的图表，让数据科学家和业务人员都能轻松理解模型决策过程。

本文将全面介绍SHAP库中的各种可视化方法，从基础的force_plot到高级的beeswarm_plot，帮助你掌握模型解释的核心技能。

SHAP可视化工具概述

SHAP库提供了丰富的可视化函数，位于shap/plots目录下。这些函数可以帮助我们从不同角度理解模型预测：

单样本解释：force_plot, waterfall_plot
总体特征重要性：bar_plot, beeswarm_plot, violin_plot
特征关系分析：scatter_plot, dependence_plot, heatmap
特殊数据类型：image_plot, text_plot

下面我们将逐一介绍这些可视化方法的使用场景和效果。

单样本解释：force_plot与waterfall_plot

force_plot：直观展示特征影响

force_plot是SHAP中最具特色的可视化方法之一，它能够直观展示每个特征对单个预测的影响。force_plot有两种实现方式：基于JavaScript的交互式版本和基于matplotlib的静态版本。

import shap

# 假设我们已经有了模型和SHAP值
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X)

# 创建force_plot
shap.force_plot(explainer.expected_value, shap_values[0,:], X.iloc[0,:])

force_plot通过水平条形图展示每个特征的贡献值，红色表示增加预测值的特征，蓝色表示减少预测值的特征。这种可视化方式非常适合向非技术人员解释单个预测结果。

waterfall_plot：逐步展示预测过程

waterfall_plot以瀑布流的形式展示特征如何一步步影响预测结果，从基线值（模型的平均预测）开始，逐步添加每个特征的SHAP值，最终到达实际预测值。

# 创建waterfall_plot
shap.waterfall_plot(shap.Explanation(values=shap_values[0], base_values=explainer.expected_value, data=X.iloc[0]))

waterfall_plot特别适合详细分析单个样本的预测过程，帮助我们理解哪些特征对预测结果的影响最大。

总体特征重要性：bar_plot与beeswarm_plot

bar_plot：总体特征重要性

bar_plot展示每个特征的平均绝对SHAP值，帮助我们快速识别对模型预测影响最大的特征。

# 创建bar_plot
shap.bar_plot(shap_values)

bar_plot简单直观，适合快速了解模型的总体特征重要性分布。但它无法展示特征值与SHAP值之间的关系。

beeswarm_plot：特征值与影响关系

beeswarm_plot（也称为蜂群图）是一种更高级的总体特征重要性可视化方法。它不仅展示特征的平均SHAP值，还通过散点图展示每个样本中特征值与SHAP值之间的关系。

# 创建beeswarm_plot
shap.beeswarm_plot(shap_values)

beeswarm_plot的x轴表示SHAP值，y轴表示特征（按重要性排序），散点的颜色表示特征值的大小。通过这个图，我们可以同时了解特征的重要性和特征值如何影响预测。

例如，从图中我们可以看到某个特征值较大时，SHAP值也较大，表明该特征值的增加会推动预测值上升。

特征关系分析：scatter_plot与dependence_plot

scatter_plot：特征间交互关系

scatter_plot展示两个特征的SHAP值之间的关系，帮助我们发现特征间的交互作用。

# 创建scatter_plot
shap.scatter_plot(shap_values[:, 0], shap_values[:, 1])

dependence_plot：特征值与SHAP值关系

dependence_plot展示单个特征值与对应的SHAP值之间的关系，帮助我们理解特征如何影响预测。

# 创建dependence_plot
shap.dependence_plot(0, shap_values, X)

dependence_plot的x轴是特征值，y轴是SHAP值，颜色表示第三个特征的值。从图中我们可以看到特征值与SHAP值之间的非线性关系，以及第三个特征如何影响这种关系。

特殊数据类型可视化

image_plot：图像数据解释

对于图像分类模型，SHAP提供了image_plot方法，可以可视化每个像素对预测的影响。

# 创建image_plot
shap.image_plot(shap_values, images)

image_plot展示原始图像和对应的SHAP热力图，红色区域表示增加预测概率的像素，蓝色区域表示减少预测概率的像素。这对于理解图像分类模型的决策过程非常有帮助。

text_plot：文本数据解释

对于文本分类模型，SHAP提供了text_plot方法，可以可视化每个词语对预测的影响。

# 创建text_plot
shap.text_plot(shap_values, text)

text_plot通过颜色编码展示每个词语的SHAP值，帮助我们理解模型如何基于文本内容做出预测。

高级可视化：heatmap与decision_plot

heatmap：特征重要性热力图

heatmap展示多个样本的SHAP值热力分布，帮助我们发现特征重要性的群体模式。

# 创建heatmap
shap.heatmap(shap_values)

heatmap的行表示样本，列表示特征，颜色表示SHAP值的大小。通过聚类样本，我们可以发现具有相似特征影响模式的样本组。

decision_plot：决策路径可视化

decision_plot展示特征如何一步步影响模型从基线值到最终预测的过程。

# 创建decision_plot
shap.decision_plot(explainer.expected_value, shap_values, feature_names=X.columns)

decision_plot特别适合比较多个样本的决策路径，或者分析不同类别样本的特征影响差异。

SHAP可视化最佳实践

选择合适的可视化方法

向非技术人员解释单个预测：使用force_plot
分析单个样本的详细影响：使用waterfall_plot
了解总体特征重要性：使用bar_plot或beeswarm_plot
探索特征间关系：使用scatter_plot或dependence_plot
分析图像或文本数据：使用相应的image_plot或text_plot

可视化参数调整

大多数SHAP可视化函数都提供了丰富的参数，可以调整图表的外观和内容：

# 调整beeswarm_plot的显示参数
shap.beeswarm_plot(shap_values, max_display=15, color_bar_label="特征值")

通过调整max_display参数可以显示更多特征，通过color参数可以更改颜色方案，通过title参数可以添加标题等。

结合多种可视化方法

为了全面理解模型，建议结合多种可视化方法：

先用bar_plot或beeswarm_plot了解总体特征重要性
再用dependence_plot探索重要特征与预测的关系
最后用force_plot或waterfall_plot深入分析个别样本

总结

SHAP可视化工具为我们提供了全面的模型解释能力，从单个预测的详细解释到总体特征重要性分析，再到特征关系探索。通过本文介绍的force_plot、beeswarm_plot等方法，你可以轻松掌握模型解释的核心技能。

记住，良好的模型解释不仅有助于提高模型的可信度，还能帮助我们发现模型的潜在问题，指导特征工程和模型改进。希望本文对你的机器学习实践有所帮助！

参考资料

SHAP官方文档：docs/
SHAP可视化示例：notebooks/plots/
SHAP论文：SHAP: A Unified Approach to Interpreting Model Predictions

shap

A game theoretic approach to explain the output of any machine learning model.

项目地址：https://gitcode.com/gh_mirrors/sh/shap

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力