Seurat项目中伪批量分析DESeq2整数错误的技术解析

2025-07-01 07:36:56作者：蔡丛锟

背景介绍

在单细胞RNA测序数据分析中，伪批量(pseudobulk)分析是一种常见的技术手段，它通过将单个细胞按特定分组(如样本来源、细胞类型等)进行聚合，模拟传统RNA-seq的批量分析。Seurat作为单细胞分析的主流工具，提供了AggregateExpression函数来实现这一功能。

问题现象

用户在Seurat 5.2版本中执行伪批量差异表达分析时遇到了DESeq2报错："some values in assay are not integers"。这一错误源于DESeq2要求输入数据必须是整数计数，而AggregateExpression函数生成的伪批量矩阵却包含了小数数值。

技术分析

1. 问题根源

虽然Seurat文档指出AggregateExpression默认将聚合结果存储在counts层，且FindMarkers在使用DESeq2测试时会自动调用counts层数据，但实际生成的伪批量矩阵仍可能包含非整数值。这是因为：

单细胞数据聚合时可能采用平均值而非简单求和
某些预处理步骤可能引入了非整数转换
稀疏矩阵存储格式下的数值精度问题

2. 解决方案比较

目前社区提出了几种解决方案：

强制取整法：直接对counts层数据进行四舍五入

pseudo@assays$RNA$counts <- round(pseudo@assays$RNA$counts)

参数指定法：在AggregateExpression中明确指定slot参数

pseudo <- AggregateExpression(sc, assays = "RNA", slot = "counts", ...)

DESeq2适配法：类似DESeq2处理tximport数据的机制，在内部实现自动整数化

3. 最佳实践建议

对于需要严格使用整数输入的差异表达分析方法(DESeq2等)，推荐采用以下工作流程：

在数据预处理阶段确保使用原始计数数据
执行AggregateExpression时显式指定slot="counts"
必要时进行手动取整处理
考虑在差异分析前验证数据是否为整数

技术展望

这一问题反映了单细胞分析工具与传统批量分析工具在数据接口上的差异。理想的解决方案应包括：

Seurat在内部实现DESeq2测试时的自动数据转换
提供更灵活的数据聚合选项
完善文档说明不同测试方法对输入数据的要求

总结

伪批量分析是连接单细胞数据与传统差异表达分析的重要桥梁。理解并正确处理数据类型的转换问题，是确保分析结果可靠性的关键。随着单细胞分析工具的不断发展，这类接口问题有望得到更系统性的解决。

seurat

R toolkit for single cell genomics

项目地址：https://gitcode.com/gh_mirrors/se/seurat

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

515

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

647

284