Seurat中SCTransform后获取残差方差的技术解析

2025-07-02 07:44:01作者：谭伦延

R toolkit for single cell genomics

项目地址：https://gitcode.com/gh_mirrors/se/seurat

在单细胞RNA测序数据分析中，Seurat的SCTransform方法是一种常用的数据归一化和方差稳定化方法。本文将深入探讨SCTransform处理后如何获取残差方差，以及相关技术细节。

SCTransform处理流程概述

SCTransform方法主要包含两个回归步骤：

负二项式回归：首先对原始计数数据进行负二项式回归，这一步计算得到的残差均值和残差方差存储在SCTModel.list$counts@feature.attributes中。
线性回归：如果设置了vars.to.regress参数，会对第一步的结果进行额外的线性回归，回归后的残差均值存储在scale.data槽中。

残差方差的获取方法

值得注意的是，scale.data槽仅包含经过第二次回归后的残差均值，而不包含残差方差。要获取考虑额外协变量后的残差方差，目前没有直接的方法，但可以通过以下方式自行计算：

确保在运行SCTransform时设置return.only.var.genes = FALSE，以保留所有基因而非仅高变基因。
对scale.data中的表达数据与协变量进行线性回归分析，从回归结果中提取残差方差。

高变基因的选择机制

SCTransform中高变基因(HVG)的选择仅基于第一步负二项式回归得到的残差方差(resVar)，而不考虑后续线性回归中引入的额外协变量。这意味着：

高变基因的确定不受vars.to.regress中设置协变量的影响
这种设计是出于数据居中(centering)的考虑
如果需要考虑协变量的影响，需要按照上述方法自行计算残差方差并筛选基因

技术建议

对于需要精确考虑协变量影响的研究，建议：

先运行完整的SCTransform流程
手动进行协变量回归分析
基于回归后的残差方差重新定义高变基因
在后续分析中使用自定义的高变基因列表

这种方法虽然增加了分析步骤，但能更准确地反映数据特性，特别是在存在强协变量影响的情况下。

理解SCTransform的内部处理机制对于正确解释分析结果至关重要，特别是在需要严格控制协变量影响的实验设计中。

R toolkit for single cell genomics

项目地址：https://gitcode.com/gh_mirrors/se/seurat

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。