Scanpy对VisiumHD空间转录组数据中parquet格式的支持解析

2025-07-04 23:16:06作者：齐添朝

背景介绍

随着空间转录组技术的发展，10X Genomics推出的VisiumHD技术平台能够捕获更高密度的空间数据。这种技术进步带来了数据量的显著增加，传统的CSV文件格式在处理大规模数据时开始显现局限性。

技术挑战

在VisiumHD平台中，由于捕获的barcode数量大幅增加，传统的CSV文件格式面临两个主要问题：

行数限制问题：CSV格式在处理超大规模数据时存在性能瓶颈
存储效率问题：CSV格式存储空间利用率不高

10X Genomics的解决方案是采用parquet文件格式替代传统的CSV格式来存储组织位置信息(tissue_position_list)。parquet是一种列式存储格式，具有以下优势：

更高的压缩率
更快的读取速度
更好的大数据处理能力

Scanpy的现状与改进

Scanpy作为单细胞和空间转录组数据分析的主流工具，其read_visium函数目前仅支持读取CSV格式的组织位置文件。这导致用户在分析VisiumHD数据时遇到兼容性问题。

现有实现分析

当前Scanpy 1.9.6版本的实现中，read_visium函数硬编码了CSV文件路径，无法自动识别parquet格式文件：

files = dict(
    tissue_positions_file=path / 'spatial/tissue_positions_list.csv',
    scalefactors_json_file=path / 'spatial/scalefactors_json.json',
    hires_image=path / 'spatial/tissue_hires_image.png',
    lowres_image=path / 'spatial/tissue_lowres_image.png',
)

改进方案

为了支持VisiumHD数据，Scanpy需要进行以下改进：

文件检测机制：自动检测目录中是否存在CSV或parquet格式的组织位置文件
多格式支持：根据检测到的文件类型选择相应的读取方法

改进后的代码逻辑如下：

files = dict(
    tissue_positions_file = next((path / f'spatial/tissue_positions_list{suffix}' 
                               for suffix in ['.csv', '.parquet'] 
                               if (path / f'spatial/tissue_positions_list{suffix}').exists()), 
                               None),
    scalefactors_json_file=path / 'spatial/scalefactors_json.json',
    hires_image=path / 'spatial/tissue_hires_image.png',
    lowres_image=path / 'spatial/tissue_lowres_image.png',
)

if files['tissue_positions_file'].suffix == '.csv':
    positions = pd.read_csv(files['tissue_positions_file'], header=None)
elif files['tissue_positions_file'].suffix == '.parquet':
    positions = pd.read_parquet(files['tissue_positions_file'])