ggstatsplot项目中解决lapply与ggscatterstats结合使用的问题

2025-07-04 19:59:45作者：庞眉杨Will

在使用ggstatsplot包进行数据可视化时，经常会遇到需要批量生成多个统计图表的场景。本文将以一个典型问题为例，介绍如何正确使用lapply函数与ggscatterstats结合来批量生成散点统计图。

问题背景

用户在使用ggstatsplot包的ggscatterstats函数时，尝试通过lapply循环为数据框中的多个列生成散点统计图。用户定义了一个函数plot_sc，期望能够接收列名作为参数，生成对应的散点图。然而在实际运行时却遇到了错误提示："Error in filter(): ! In argument: !is.na(x)"。

问题分析

这个问题的根源在于R语言中非标准评估(NSE)的处理机制。当我们将列名作为字符串传递给函数时，ggscatterstats函数内部无法正确解析这个字符串变量作为数据框的列名。具体表现为：

用户定义的plot_sc函数接收列名字符串作为参数x
在函数内部直接使用x作为ggscatterstats的x参数
ggscatterstats内部尝试对x进行非标准评估时失败

解决方案

解决这个问题的关键在于正确地将字符串变量转换为列名引用。在R中，我们可以使用!!操作符（来自rlang包）来实现这一点。具体修改如下：

plot_sc = function(x) {
  ggstatsplot::ggscatterstats(
    data = dat,
    x = !!x,  # 关键修改：使用!!操作符
    y = "Riskscore",
    type = "np",
    k = 2L,
    title = '',
    messages = FALSE,
    marginal.type = "density"
  )
}

技术原理

!!操作符在R中被称为"unquote"操作符，它的作用是将一个表达式强制求值。在这个场景中：

当lapply传递列名字符串给plot_sc函数时，x变量包含的是字符串
使用!!x告诉R将这个字符串作为列名引用，而不是字面值
这样ggscatterstats内部就能正确识别这个参数作为数据框的列名

实际应用示例

以下是一个完整的示例代码，展示了如何正确使用这种方法：

# 假设dat是我们的数据框
colnames_to_plot <- colnames(dat)[1:10]  # 要绘制的列名

# 定义绘图函数
plot_sc = function(x) {
  ggstatsplot::ggscatterstats(
    data = dat,
    x = !!x,
    y = "Riskscore",
    type = "np",
    k = 2L,
    title = '',
    messages = FALSE,
    marginal.type = "density"
  )
}

# 批量生成图表
splots = lapply(colnames_to_plot, plot_sc)