UKB-RAP-Notebooks项目：基于OMOP数据模型的高血压病例研究

2025-06-28 10:00:06作者：舒璇辛Bertina

概述

本文将介绍如何使用UKB-RAP-Notebooks项目中的Jupyter Notebook分析OMOP(Observational Medical Outcomes Partnership)数据模型中的高血压相关数据。OMOP是由OHDSI(Observational Health Data Science and Informatics)社区开发的标准医疗数据模型，旨在规范观察性数据的结构和内容，支持高效的医疗数据分析。

技术背景

OMOP数据模型简介

OMOP通用数据模型(CDM)提供了一种标准化的方式来组织和表示医疗数据，主要包括以下几类表：

临床数据表：如condition_occurrence(疾病发生)、drug_exposure(药物暴露)等
资源表：如concept(概念)、concept_ancestor(概念层级)等
元数据表：如metadata(元数据)

Spark技术优势

本分析使用Spark处理大规模OMOP数据，主要优势包括：

内存计算：数据加载到内存后大幅提升后续分析速度
分布式处理：能够高效处理海量医疗数据
统一接口：通过sparklyr包提供熟悉的R/dplyr接口

分析流程

1. 环境准备

首先需要加载必要的R包：

if(!require(pacman)) install.packages("pacman")
install.packages("sparklyr")
pacman::p_load(sparklyr, data.table, dplyr, ggplot2, scales, stringr, glue, readr)

2. 加载OMOP资源表

OMOP资源表不包含参与者特定信息，但提供标准化关键词等数据：

# 下载并加载概念表和概念层级表
system("wget -nd biobank.ndph.ox.ac.uk/ukb/ukb/auxdata/omop_concept.tsv")
system("wget -nd biobank.ndph.ox.ac.uk/ukb/ukb/auxdata/omop_concept_ancestor.tsv")

# 处理概念表
omop_concept <- fread("omop_concept.tsv", sep = "\t")
omop_concept_ancestor <- fread("omop_concept_ancestor.tsv", sep = "\t") %>%
    left_join(select(omop_concept, concept_id, "ancestor_concept_name" = concept_name), 
              by = c("ancestor_concept_id" = "concept_id")) %>%
    left_join(select(omop_concept, concept_id, "descendant_concept_name" = concept_name), 
              by = c("descendant_concept_id" = "concept_id"))

3. 识别高血压相关概念

通过概念层级关系识别高血压相关概念：

# 识别高血压疾病(concept_id=316866)的所有子概念
hypertension_concept_ids <- omop_concept_ancestor %>%
    filter(ancestor_concept_id == "316866") %>% 
    distinct(descendant_concept_id, ancestor_concept_name, descendant_concept_name) %>%
    mutate(descendant_concept_id = as.character(descendant_concept_id))

4. 建立Spark连接并加载数据

# 建立Spark连接
port <- Sys.getenv("SPARK_MASTER_PORT")
master <- paste("spark://master:", port, sep = '')
sc = spark_connect(master)

# 加载条件发生表
tbl_cache(sc, paste0(database, '.omop_condition_occurrence'))
omop_condition_occurrence <- dplyr::tbl(sc, paste0(database, '.omop_condition_occurrence'))

5. 数据过滤与分析

5.1 过滤高血压相关记录

# 转换为Spark数据框
hypertension_concept_ids_spark <- sparklyr::copy_to(sc, hypertension_concept_ids, overwrite = TRUE)

# 过滤条件发生表
omop_condition_occurrence_filtered <- omop_condition_occurrence %>% 
    inner_join(hypertension_concept_ids_spark, 
               by = c("condition_concept_id" = "descendant_concept_id")) %>%
    select(eid, condition_occurrence_id, condition_concept_id, descendant_concept_name)

5.2 分析概念层级的影响

使用概念层级关系可以捕获更全面的高血压相关数据：

仅包含"原发性高血压"的记录：141,054条
包含所有高血压相关子概念的记录：171,211条
额外捕获的记录：30,157条

# 分析不同概念组合
omop_condition_occurrence_filtered %>%
  distinct(eid, condition_concept_id, descendant_concept_name) %>%
  mutate(
    condition = case_when(
      descendant_concept_name == "Essential hypertension" ~ "Essential hypertension",
      TRUE ~ "Other Hypertensive disorders"
    )
  ) %>%
  count(condition, wt = n)

5.3 参与者分组分析

参与者可分为三组：

仅原发性高血压：111,874人
原发性高血压和其他高血压疾病：29,180人
仅其他高血压疾病：1,157人

# 可视化展示
omop_condition_occurrence_filtered %>% 
    mutate(
    condition = case_when(
      descendant_concept_name == "Essential hypertension" ~ "Essential hypertension",
      TRUE ~ "Other Hypertensive disorders"
    )
  ) %>%
  distinct(eid, condition) %>% 
  add_count(eid) %>%
  group_by(eid) %>%
  summarise(
    has_essential = any(condition == "Essential hypertension" & n == 1),
    has_other = any(condition == "Other Hypertensive disorders" & n == 1),
    has_both = all(condition %in% c("Essential hypertension", "Other Hypertensive disorders") & n == 2)
  ) %>%
  ungroup() %>%
  mutate(
    condition_combination = case_when(
      has_essential ~ "Essential Hypertension",
      has_other ~ "Other Hypertensive disorders",
      has_both ~ "Has Essential and Other Hypertensive disorders",
      TRUE ~ "Unknown"
    ),
    x_var = ""
  ) %>%
    count(x_var, condition_combination) %>%
    ggplot(aes(x = x_var, y = n, fill = condition_combination)) +
    geom_bar(stat = "identity", position = position_stack(reverse = TRUE)) +
  geom_text(aes(label = n, y = n), position = position_stack(vjust = 0.5, reverse = TRUE), size = 3) +
  labs(title = "Condition Combinations",
       x = "",
       y = "Count") +
  theme_minimal() +
  scale_y_continuous(labels = label_number(scale = 1e0)) +
    scale_fill_manual(values = c("#006994", "#00a36f", "#ffa700"))