首页
/ UKB_RAP 研究应用平台使用指南

UKB_RAP 研究应用平台使用指南

2026-02-06 05:07:22作者:彭桢灵Jeremy

功能模块导航

UKB_RAP 平台提供一系列功能模块,满足从数据处理到结果可视化的全流程科研需求。以下是各核心模块及其典型应用场景:

基因组分析工具集

场景引导:需要进行全基因组关联分析(GWAS)或处理基因数据时使用
包含完整的基因数据分析流水线,支持从原始数据质控到关联分析的全流程处理。典型应用于寻找疾病相关遗传变异、基因与表型关联研究等场景。

生物信息工作流

场景引导:处理标准化数据分析流程或需要跨平台复现分析结果时使用
提供基于WDL(Workflow Description Language)的工作流定义,支持云端高效执行。适用于需要标准化、可重复的大规模数据分析任务。

容器化应用

场景引导:需要一致运行环境或共享分析工具时使用
包含Docker容器化应用,确保分析环境一致性。适合开发可移植的分析工具或需要团队协作的研究项目。

表型数据处理

场景引导:处理临床表型数据或构建研究队列时使用
提供表型数据提取、清洗和转换工具。主要用于从大型数据库中筛选符合研究条件的样本及相关表型信息。

蛋白质组学分析

场景引导:分析蛋白质表达数据或研究蛋白质与疾病关系时使用
包含蛋白质数据预处理、差异表达分析和蛋白质数量性状位点(pQTL)分析工具。适用于蛋白质组学相关的转化医学研究。

结果可视化工具

场景引导:需要展示分析结果或生成 publication 级图表时使用
提供多种统计可视化方案,支持GWAS结果、表型数据和蛋白质组学数据的可视化呈现。

场景化使用流程

场景一:全基因组关联分析(GWAS)

数据准备与质控

  1. 提取并预处理表型数据

    jupyter notebook end_to_end_gwas_phewas/get-phewas-data.ipynb
    
  2. 执行样本质量控制

    jupyter notebook GWAS/gwas-phenotype-samples-qc.ipynb
    

💡 注意事项:确保表型数据与基因型数据的样本ID匹配,建议在质控步骤保留至少90%的原始样本

基因型数据处理

  1. 运行基因型数据质控工作流

    dx run app-wdl -i wdl=end_to_end_gwas_phewas/bgens_qc/bgens_qc.wdl -i json=end_to_end_gwas_phewas/bgens_qc/generate_inputs.ipynb
    
  2. 执行基因型数据格式转换(如需要) 参考 format_conversion/bgen_compression_conversion.md 文档

关联分析执行

  1. 运行Regenie第一步分析(协变量调整)

    bash GWAS/regenie_workflow/partD-step1-regenie.sh
    
  2. 运行Regenie第二步分析(关联测试)

    bash GWAS/regenie_workflow/partF-step2-regenie.sh
    

💡 注意事项:根据样本量调整计算资源,建议每个染色体分配至少4GB内存

结果处理与可视化

  1. 合并关联分析结果

    bash GWAS/regenie_workflow/partG-merge-regenie-files.sh
    
  2. 生成曼哈顿图和QQ图

    jupyter notebook gwas_visualization/gwas_results_Python.ipynb
    

场景二:蛋白质组学数据分析

数据提取与预处理

  1. 提取蛋白质表型数据

    jupyter notebook proteomics/0_extract_phenotype_protein_data.ipynb
    
  2. 数据预处理与探索性分析

    jupyter notebook proteomics/protein_DE_analysis/1_preprocess_explore_data.ipynb
    

差异表达分析

  1. 执行蛋白质差异表达分析
    jupyter notebook proteomics/protein_DE_analysis/2_differential_expression_analysis.ipynb
    

💡 注意事项:确保正确设置对照组和实验组,建议使用limma或DESeq2方法进行差异分析

蛋白质QTL分析

  1. 准备pQTL分析输入数据
    jupyter notebook proteomics/protein_pQTL/1_simulate_input_data.ipynb
    

核心文件速查

关键启动文件

GWAS分析启动脚本

  • partD-step1-regenie.sh

    • 路径:GWAS/regenie_workflow/
    • 功能:执行Regenie第一步分析,进行协变量调整和初步关联分析
    • 参数说明:
      # 主要参数
      --step 1                  # 指定执行第一步分析
      --bed ${genotype_data}    # 输入基因型数据路径
      --phenoFile ${phenotype}  # 表型数据文件
      --covarFile ${covariates} # 协变量文件
      --out ${output_prefix}    # 输出文件前缀
      
  • partF-step2-regenie.sh

    • 路径:GWAS/regenie_workflow/
    • 功能:执行Regenie第二步分析,进行精确关联测试

工作流定义文件

  • view_and_count.wdl
    • 路径:WDL/
    • 功能:定义数据查看和计数工作流
    • 输入参数文件:view_and_count.input.json

重要配置文件

应用配置文件

  • dxapp.json
    • 路径:apps_workflows/samtools_count_apt/docker_apps/samtools_count_docker/
    • 功能:定义DNAnexus应用属性和输入输出参数
    • 常见配置项:
      {
        "name": "samtools_count",
        "title": "Samtools Count Reads",
        "summary": "Count reads in BAM files using samtools",
        "dxapi": "1.0.0",
        "inputSpec": [
          {
            "name": "bam_file",
            "class": "file",
            "optional": false,
            "help": "Input BAM file"
          }
        ]
      }
      

工作流输入文件

  • view_and_count.input.json
    • 路径:WDL/
    • 功能:为WDL工作流提供输入参数
    • 配置示例:
      {
        "view_and_count.bam_file": {
          "$dnanexus_link": "file-xxxx"
        },
        "view_and_count.region": "chr1:1-100000"
      }
      

常见问题解决方案

配置文件问题

  1. 工作流参数不匹配

    • 症状:工作流执行时报参数错误
    • 解决:检查输入JSON文件与WDL定义的参数是否一致,确保所有必填参数都有提供
  2. 路径配置错误

    • 症状:文件找不到或路径错误
    • 解决:使用绝对路径或确保相对路径相对于工作目录,在UKB_RAP平台上可使用dx find data命令查找正确的数据路径

数据分析问题

  1. 内存不足

    • 症状:分析过程中程序崩溃或卡住
    • 解决:调整工作流资源配置,增加内存分配,或拆分大型数据集进行分步分析
  2. 样本ID不匹配

    • 症状:基因型和表型数据合并错误
    • 解决:使用end_to_end_gwas_phewas/run_array_qc.sh脚本进行样本ID一致性检查和校正

环境设置与项目管理

R环境配置

场景引导:需要R环境进行统计分析时使用

# 安装并加载所需包
source("rstudio_demo/export_phenotypes.R")

# 生成可重现环境报告
rmarkdown::render("rstudio_demo/renv_reproducible_environments.Rmd")

💡 注意事项:使用renv包管理R依赖,确保分析环境可重现

Jupyter Notebook使用

所有IPython Notebook文件可通过Jupyter环境打开和运行:

# 启动Jupyter Notebook服务器
jupyter notebook

在浏览器中访问提示的URL,导航到目标Notebook文件即可开始分析。

总结

UKB_RAP平台提供了全面的科研分析工具集,支持从数据处理到结果可视化的完整研究流程。通过本文档介绍的功能模块和使用流程,研究者可以高效利用平台资源开展各类生物医学研究。建议根据具体研究需求,选择合适的功能模块和工作流,以实现高效、可重复的科学发现。

登录后查看全文
热门项目推荐
相关项目推荐