Scanpy中highest_expr_genes函数对layer参数的支持问题分析

2025-07-04 17:09:18作者：江焘钦

Single-cell analysis in Python. Scales to >1M cells.

项目地址：https://gitcode.com/gh_mirrors/sc/scanpy

问题背景

Scanpy是一个广泛使用的单细胞RNA测序数据分析工具包，其中的highest_expr_genes函数用于可视化表达量最高的基因。在实际分析中，用户经常需要处理不同层次的数据（如原始计数、标准化数据等），这些数据通常存储在AnnData对象的layers中。

问题描述

用户在使用highest_expr_genes函数时发现，当尝试通过layer参数指定使用特定层（如'normalised'层）的数据时，函数会抛出TypeError异常。这是因为当前版本的函数实现尚未支持从layers中读取数据。

技术分析

函数设计：highest_expr_genes函数主要用于展示数据中表达量最高的基因，帮助用户快速了解数据质量。它通过计算每个基因占总表达量的百分比，并使用箱线图展示这些高表达基因的分布情况。
当前限制：函数默认只从AnnData对象的.X属性读取数据，无法处理存储在layers中的其他数据形式。这在处理经过标准化或其他转换的数据时会造成不便。
错误原因：当用户尝试传递layer参数时，该参数被错误地传递给了底层的绘图函数（seaborn的boxplot），而不是用于数据提取步骤，导致TypeError异常。

解决方案

临时解决方案：用户可以通过手动提取layer数据并临时替换.X属性来实现相同功能：
```
adata.X = adata.layers['normalised']
sc.pl.highest_expr_genes(adata)
```
长期解决方案：Scanpy开发团队已经在代码库中修复了这个问题（#3324），未来的版本将原生支持layer参数，允许用户直接指定使用哪个层的数据进行分析和可视化。

最佳实践建议

在进行单细胞数据分析时，始终明确当前操作使用的是哪种数据形式（原始计数、标准化数据等）。
对于重要的数据转换步骤，建议将结果存储在layers中，而不是直接替换.X属性，这样可以保留原始数据供后续分析使用。
在可视化前，确认所使用的数据层次是否符合分析需求，特别是在进行质量控制时，通常需要使用原始计数数据。
关注Scanpy的版本更新，及时获取对layers支持的改进功能。

总结

Scanpy作为单细胞分析的重要工具，其功能正在不断完善。虽然当前版本的highest_expr_genes函数存在对layers支持不足的问题，但开发团队已经意识到这一需求并进行了修复。用户可以通过临时解决方案或等待新版本发布来获得更灵活的数据分析体验。

Single-cell analysis in Python. Scales to >1M cells.

项目地址：https://gitcode.com/gh_mirrors/sc/scanpy

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统