dplyr中rowwise与c_across的正确使用方式

2025-06-10 16:28:28作者：冯梦姬Eddie

在R语言的dplyr包中，rowwise函数是一个强大的工具，它允许我们对数据框中的每一行进行独立操作。然而，许多用户在使用过程中会遇到一个常见误区：直接使用冒号(:)运算符来选择列范围时，结果往往不符合预期。

问题现象

当用户尝试计算多列的行均值时，可能会写出类似这样的代码：

df %>% rowwise() %>% mutate(m = mean(c(x:z)))

这段代码看起来似乎应该计算x到z列的行均值，但实际上它只会返回每行x列的值。这是因为冒号运算符在R中主要用于生成数值序列，而不是列选择。

正确解决方案

dplyr专门为这种场景提供了c_across函数，它能够正确地处理列选择并返回预期的结果：

df %>% rowwise() %>% mutate(m = mean(c_across(x:z)))

技术原理

冒号运算符的行为：在R中，x:z实际上是生成从x值到z值的整数序列。当x和z是列名时，它并不会自动识别为列选择，而是会尝试将列值转换为序列。
c_across的作用：c_across是dplyr专门为rowwise操作设计的函数，它能够：
- 识别tidyselect语法（如x:z）
- 正确获取指定列的值
- 将这些值组合成向量
性能考虑：对于大型数据集，rowwise操作可能不是最高效的选择。在这种情况下，可以考虑使用rowMeans或其他向量化操作。

实际应用建议

当需要对多列进行行操作时，优先考虑使用c_across而不是直接使用c()或冒号运算符。
如果只是计算简单的行均值，也可以考虑使用dplyr的rowwise配合summarise：

df %>% rowwise() %>% summarise(m = mean(c_across(x:z)))

对于更复杂的行操作，可以结合使用across和自定义函数。

理解这些细微差别可以帮助R用户更有效地利用dplyr进行数据操作，避免常见的陷阱，写出更健壮的数据处理代码。

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

昇腾LLM分布式训练框架

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started