UKB_RAP 研究应用平台使用指南

2026-02-06 05:07:22作者：彭桢灵Jeremy

Access share reviewed code & Jupyter Notebooks for use on the UK Biobank (UKBB) Research Application Platform. Includes resources from DNAnexus webinars, online trainings and workshops.

项目地址：https://gitcode.com/gh_mirrors/uk/UKB_RAP

功能模块导航

UKB_RAP 平台提供一系列功能模块，满足从数据处理到结果可视化的全流程科研需求。以下是各核心模块及其典型应用场景：

基因组分析工具集

场景引导：需要进行全基因组关联分析（GWAS）或处理基因数据时使用
包含完整的基因数据分析流水线，支持从原始数据质控到关联分析的全流程处理。典型应用于寻找疾病相关遗传变异、基因与表型关联研究等场景。

生物信息工作流

场景引导：处理标准化数据分析流程或需要跨平台复现分析结果时使用
提供基于WDL（Workflow Description Language）的工作流定义，支持云端高效执行。适用于需要标准化、可重复的大规模数据分析任务。

容器化应用

场景引导：需要一致运行环境或共享分析工具时使用
包含Docker容器化应用，确保分析环境一致性。适合开发可移植的分析工具或需要团队协作的研究项目。

表型数据处理

场景引导：处理临床表型数据或构建研究队列时使用
提供表型数据提取、清洗和转换工具。主要用于从大型数据库中筛选符合研究条件的样本及相关表型信息。

蛋白质组学分析

场景引导：分析蛋白质表达数据或研究蛋白质与疾病关系时使用
包含蛋白质数据预处理、差异表达分析和蛋白质数量性状位点（pQTL）分析工具。适用于蛋白质组学相关的转化医学研究。

结果可视化工具

场景引导：需要展示分析结果或生成 publication 级图表时使用
提供多种统计可视化方案，支持GWAS结果、表型数据和蛋白质组学数据的可视化呈现。

场景化使用流程

场景一：全基因组关联分析（GWAS）

数据准备与质控

提取并预处理表型数据

jupyter notebook end_to_end_gwas_phewas/get-phewas-data.ipynb

执行样本质量控制

jupyter notebook GWAS/gwas-phenotype-samples-qc.ipynb

💡 注意事项：确保表型数据与基因型数据的样本ID匹配，建议在质控步骤保留至少90%的原始样本

基因型数据处理

运行基因型数据质控工作流

dx run app-wdl -i wdl=end_to_end_gwas_phewas/bgens_qc/bgens_qc.wdl -i json=end_to_end_gwas_phewas/bgens_qc/generate_inputs.ipynb

执行基因型数据格式转换（如需要）参考 format_conversion/bgen_compression_conversion.md 文档

关联分析执行

运行Regenie第一步分析（协变量调整）

bash GWAS/regenie_workflow/partD-step1-regenie.sh

运行Regenie第二步分析（关联测试）

bash GWAS/regenie_workflow/partF-step2-regenie.sh

💡 注意事项：根据样本量调整计算资源，建议每个染色体分配至少4GB内存

结果处理与可视化

合并关联分析结果

bash GWAS/regenie_workflow/partG-merge-regenie-files.sh

生成曼哈顿图和QQ图

jupyter notebook gwas_visualization/gwas_results_Python.ipynb

场景二：蛋白质组学数据分析

数据提取与预处理

提取蛋白质表型数据

jupyter notebook proteomics/0_extract_phenotype_protein_data.ipynb

数据预处理与探索性分析

jupyter notebook proteomics/protein_DE_analysis/1_preprocess_explore_data.ipynb

差异表达分析

执行蛋白质差异表达分析

jupyter notebook proteomics/protein_DE_analysis/2_differential_expression_analysis.ipynb

💡 注意事项：确保正确设置对照组和实验组，建议使用limma或DESeq2方法进行差异分析

蛋白质QTL分析

准备pQTL分析输入数据

jupyter notebook proteomics/protein_pQTL/1_simulate_input_data.ipynb

核心文件速查

关键启动文件

GWAS分析启动脚本

partD-step1-regenie.sh

路径：GWAS/regenie_workflow/
功能：执行Regenie第一步分析，进行协变量调整和初步关联分析

参数说明：

# 主要参数
--step 1                  # 指定执行第一步分析
--bed ${genotype_data}    # 输入基因型数据路径
--phenoFile ${phenotype}  # 表型数据文件
--covarFile ${covariates} # 协变量文件
--out ${output_prefix}    # 输出文件前缀

partF-step2-regenie.sh
- 路径：GWAS/regenie_workflow/
- 功能：执行Regenie第二步分析，进行精确关联测试

工作流定义文件

view_and_count.wdl
- 路径：WDL/
- 功能：定义数据查看和计数工作流
- 输入参数文件：view_and_count.input.json

重要配置文件

应用配置文件

dxapp.json

路径：apps_workflows/samtools_count_apt/ 和 docker_apps/samtools_count_docker/
功能：定义DNAnexus应用属性和输入输出参数

常见配置项：

{
  "name": "samtools_count",
  "title": "Samtools Count Reads",
  "summary": "Count reads in BAM files using samtools",
  "dxapi": "1.0.0",
  "inputSpec": [
    {
      "name": "bam_file",
      "class": "file",
      "optional": false,
      "help": "Input BAM file"
    }
  ]
}

工作流输入文件

view_and_count.input.json

路径：WDL/
功能：为WDL工作流提供输入参数

配置示例：

{
  "view_and_count.bam_file": {
    "$dnanexus_link": "file-xxxx"
  },
  "view_and_count.region": "chr1:1-100000"
}

常见问题解决方案

配置文件问题

工作流参数不匹配
- 症状：工作流执行时报参数错误
- 解决：检查输入JSON文件与WDL定义的参数是否一致，确保所有必填参数都有提供
路径配置错误
- 症状：文件找不到或路径错误
- 解决：使用绝对路径或确保相对路径相对于工作目录，在UKB_RAP平台上可使用dx find data命令查找正确的数据路径

数据分析问题

内存不足
- 症状：分析过程中程序崩溃或卡住
- 解决：调整工作流资源配置，增加内存分配，或拆分大型数据集进行分步分析
样本ID不匹配
- 症状：基因型和表型数据合并错误
- 解决：使用end_to_end_gwas_phewas/run_array_qc.sh脚本进行样本ID一致性检查和校正

环境设置与项目管理

R环境配置

场景引导：需要R环境进行统计分析时使用

# 安装并加载所需包
source("rstudio_demo/export_phenotypes.R")

# 生成可重现环境报告
rmarkdown::render("rstudio_demo/renv_reproducible_environments.Rmd")

💡 注意事项：使用renv包管理R依赖，确保分析环境可重现

Jupyter Notebook使用

所有IPython Notebook文件可通过Jupyter环境打开和运行：

# 启动Jupyter Notebook服务器
jupyter notebook

在浏览器中访问提示的URL，导航到目标Notebook文件即可开始分析。

总结

UKB_RAP平台提供了全面的科研分析工具集，支持从数据处理到结果可视化的完整研究流程。通过本文档介绍的功能模块和使用流程，研究者可以高效利用平台资源开展各类生物医学研究。建议根据具体研究需求，选择合适的功能模块和工作流，以实现高效、可重复的科学发现。

UKB_RAP

Access share reviewed code & Jupyter Notebooks for use on the UK Biobank (UKBB) Research Application Platform. Includes resources from DNAnexus webinars, online trainings and workshops.

项目地址：https://gitcode.com/gh_mirrors/uk/UKB_RAP

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

438

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

454

5.07 K

UKB_RAP 研究应用平台使用指南

功能模块导航

基因组分析工具集

生物信息工作流

容器化应用

表型数据处理

蛋白质组学分析

结果可视化工具

场景化使用流程

场景一：全基因组关联分析（GWAS）

数据准备与质控

基因型数据处理

关联分析执行

结果处理与可视化

场景二：蛋白质组学数据分析

数据提取与预处理

差异表达分析

蛋白质QTL分析

核心文件速查

关键启动文件

GWAS分析启动脚本

工作流定义文件

重要配置文件

应用配置文件

工作流输入文件

常见问题解决方案

配置文件问题

数据分析问题

环境设置与项目管理

R环境配置

Jupyter Notebook使用

总结

热门内容推荐

最新内容推荐

项目优选

UKB_RAP 研究应用平台使用指南

功能模块导航

基因组分析工具集

生物信息工作流

容器化应用

表型数据处理

蛋白质组学分析

结果可视化工具

场景化使用流程

场景一：全基因组关联分析（GWAS）

数据准备与质控

基因型数据处理

关联分析执行

结果处理与可视化

场景二：蛋白质组学数据分析

数据提取与预处理

差异表达分析

蛋白质QTL分析

核心文件速查

关键启动文件

GWAS分析启动脚本

工作流定义文件

重要配置文件

应用配置文件

工作流输入文件

常见问题解决方案

配置文件问题

数据分析问题

环境设置与项目管理

R环境配置

Jupyter Notebook使用

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选