EnrichedHeatmap项目中的行排序方法比较

2025-06-07 14:41:38作者：郁楠烈Hubert

引言

在基因组学数据分析中，热图是一种常用的可视化工具，能够直观展示数据在不同基因组区域或样本中的分布模式。EnrichedHeatmap作为一款专门用于展示基因组富集模式的热图工具，提供了多种行排序方法，帮助研究人员更好地理解数据中的潜在模式。

本文将重点探讨EnrichedHeatmap中三种不同的行排序方法，分析它们各自的优缺点及适用场景，帮助用户根据具体需求选择最合适的排序策略。

数据准备

我们使用EnrichedHeatmap包中提供的示例数据，这些数据展示了基因表达与甲基化呈负相关区域(negCRs)在转录起始位点(TSS)附近的分布情况。

library(EnrichedHeatmap)
data(neg_cr, package = "EnrichedHeatmap")
all_genes = all_genes[unique(neg_cr$gene)]
all_tss = promoters(all_genes, upstream = 0, downstream = 1)
mat_neg_cr = normalizeToMatrix(neg_cr, all_tss, mapping_column = "gene", w = 50, mean_mode = "w0")

通过normalizeToMatrix()函数，我们将negCRs标准化到基因TSS上游5kb和下游5kb的区域，使用50bp的窗口大小。矩阵中的值表示每个窗口被negCRs覆盖的程度，范围在0到1之间。

三种行排序方法详解

1. 基于富集得分的排序

这是EnrichedHeatmap的默认排序方法。对于矩阵中的每一行(代表一个基因)，计算其富集得分：

\sum_{i=1}^{n_1}{x_i \cdot i/n_1} + \sum_{i=n_1+1}^n{x_i \cdot (n - i + 1)/n_2}

其中：

$x_{i}$ 表示第i个窗口的值
$n_{1}$ 是上游窗口数量
$n_{2}$ 是下游窗口数量

该方法给予靠近TSS的窗口更高权重，因此富集得分高的基因通常在其TSS附近有更强的信号。

优点：

计算简单快速
直接反映信号在TSS附近的富集程度

缺点：

可能掩盖数据中的空间聚类模式
当同时使用顶部富集注释时，信息冗余

2. 基于欧氏距离的层次聚类

使用传统的层次聚类方法，以欧氏距离作为行间距离度量：

EnrichedHeatmap(mat_neg_cr, cluster_rows = TRUE)

特点：

欧氏距离不考虑列的顺序，只关注数值模式
能够发现具有相似富集模式的基因簇
但可能将空间上接近的簇分开显示

3. 基于邻近度距离的层次聚类

这是EnrichedHeatmap提供的一种特殊距离度量，专门为基因组富集数据设计。对于两行数据，定义其邻近度距离为：

d_{closeness} = \frac{\sum_{i=1}^{n_1} \sum_{j=1}^{n_2} {|a_i - b_j|} }{n_1 \cdot n_2}

其中 $a_{i}$ 和 $b_{j}$ 分别是两行中信号窗口的索引位置。

EnrichedHeatmap(mat_neg_cr, cluster_rows = TRUE, 
               clustering_distance_rows = dist_by_closeness)

优势：

考虑了列的顺序，反映空间位置关系
能更好地保持空间邻近的簇在热图中也相邻
特别适合展示基因组富集数据的空间模式

方法比较与可视化

我们通过实际的热图展示来比较这三种排序方法的效果：

# 默认富集得分排序
p1 <- EnrichedHeatmap(mat_neg_cr, name = "neg_cr", 
                     col = c("white", "darkgreen"),
                     top_annotation = HeatmapAnnotation(
                       enrich = anno_enriched(gp = gpar(col = "darkgreen")))

# 欧氏距离层次聚类
p2 <- EnrichedHeatmap(mat_neg_cr, name = "neg_cr", 
                     col = c("white", "darkgreen"),
                     cluster_rows = TRUE)

# 邻近度距离层次聚类
p3 <- EnrichedHeatmap(mat_neg_cr, name = "neg_cr", 
                     col = c("white", "darkgreen"),
                     cluster_rows = TRUE,
                     clustering_distance_rows = dist_by_closeness)