Seurat项目中AggregateExpression函数在CITEseq蛋白数据上的CLR标准化问题解析

2025-07-01 00:45:24作者：吴年前Myrtle

R toolkit for single cell genomics

项目地址：https://gitcode.com/gh_mirrors/se/seurat

背景介绍

在单细胞数据分析中，Seurat是一个广泛使用的R语言工具包，特别适用于单细胞RNA测序(scRNA-seq)和CITE-seq(同时检测转录组和表面蛋白)数据的分析。其中，AggregateExpression函数是一个重要功能，用于将单细胞数据聚合成"伪批量"表达数据，便于后续分析。

问题发现

在使用Seurat 5.0.2版本处理CITEseq蛋白数据(ADT)时，研究人员发现AggregateExpression函数在指定CLR(Centered Log Ratio)标准化时存在一个潜在问题。具体表现为：

当设置normalization.method = 'CLR'且margin = 2(按行/特征标准化)时，函数实际执行的是margin = 1(按列/细胞标准化)的CLR转换，这与预期行为不符。

技术细节

CLR标准化是处理成分数据(如CITE-seq蛋白数据)的常用方法，它通过对数转换后减去几何均值来消除组成偏差。在Seurat中：

margin = 1：对每个细胞的所有蛋白标记物进行CLR转换
margin = 2：对每个蛋白标记物在所有细胞中进行CLR转换

在聚合分析中，正确的标准化方向对结果解释至关重要。按特征(margin=2)标准化可以确保不同标记物间的表达水平可比性，而按细胞(margin=1)标准化则更关注细胞间的比较。

影响分析

这一行为差异可能导致：

在比较不同蛋白标记物表达水平时产生偏差
下游分析如差异表达分析的结果可能受到影响
批次效应校正等步骤的效果可能不如预期

解决方案

根据Seurat开发团队的反馈，该问题已在最新版本中得到修复。建议用户：

升级到最新版Seurat
如果暂时无法升级，可以明确指定标准化方向后手动验证结果
对于关键分析，建议通过其他方法(如手动CLR转换)验证结果可靠性

最佳实践建议

处理CITE-seq蛋白数据时：

明确标准化方向的选择依据
对关键步骤进行结果验证
保持软件版本更新
记录详细的参数设置以便结果复现

该问题的发现和修复体现了开源社区协作的优势，也提醒我们在数据分析过程中保持对工具行为的验证意识。

R toolkit for single cell genomics

项目地址：https://gitcode.com/gh_mirrors/se/seurat

登录后查看全文

项目优选

收起

deepin linux kernel

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。