dplyr中使用group_by与rle实现分组连续值统计

2025-06-10 12:19:16作者：董灵辛Dennis

项目地址：https://gitcode.com/gh_mirrors/dpl/dplyr

问题背景

在使用R语言进行数据分析时，我们经常需要对数据进行分组统计。dplyr包中的group_by函数是进行分组操作的强大工具。然而，当我们需要统计分组内连续出现的相同值时，情况会变得稍微复杂一些。

原始问题分析

用户davidss101遇到了一个具体问题：他有一个包含两列的数据框，第一列(column1)是分组变量，第二列(column2)是包含0和1的二进制值。他想要对数据进行分组后，统计每个组内连续出现1或0的次数。

用户最初尝试的代码是：

df2 <- df1 %>% group_by(column1) %>% reframe(data.frame(unclass(rle(df1$column2))))

这段代码的问题在于rle函数没有正确识别分组结构，而是对整个column2列进行了游程编码，忽略了group_by的分组效果。

解决方案探索

方法一：使用rleid函数

用户最终找到了一个有效的解决方案，使用了data.table包中的rleid函数：

df2 <- df1 %>% 
  group_by(column1) %>% 
  mutate(sequence = data.table::rleid(column2 == 1)) %>% 
  filter(column2 == 1) %>% 
  group_by(column1, sequence) %>% 
  summarise(length = n())

这个解决方案的工作原理是：

首先按column1分组
使用rleid为连续的1创建序列号
过滤出所有值为1的行
再次按column1和序列号分组
统计每组中的行数，即连续1的长度

方法二：纯dplyr解决方案

如果不希望引入data.table依赖，也可以使用纯dplyr的方法：

df2 <- df1 %>%
  group_by(column1) %>%
  mutate(change = column2 != lag(column2, default = first(column2))) %>%
  mutate(sequence = cumsum(change)) %>%
  group_by(column1, sequence) %>%
  summarise(
    value = first(column2),
    length = n(),
    .groups = "drop"
  ) %>%
  select(-sequence)