UKB_RAP 研究应用平台使用指南
功能模块导航
UKB_RAP 平台提供一系列功能模块,满足从数据处理到结果可视化的全流程科研需求。以下是各核心模块及其典型应用场景:
基因组分析工具集
场景引导:需要进行全基因组关联分析(GWAS)或处理基因数据时使用
包含完整的基因数据分析流水线,支持从原始数据质控到关联分析的全流程处理。典型应用于寻找疾病相关遗传变异、基因与表型关联研究等场景。
生物信息工作流
场景引导:处理标准化数据分析流程或需要跨平台复现分析结果时使用
提供基于WDL(Workflow Description Language)的工作流定义,支持云端高效执行。适用于需要标准化、可重复的大规模数据分析任务。
容器化应用
场景引导:需要一致运行环境或共享分析工具时使用
包含Docker容器化应用,确保分析环境一致性。适合开发可移植的分析工具或需要团队协作的研究项目。
表型数据处理
场景引导:处理临床表型数据或构建研究队列时使用
提供表型数据提取、清洗和转换工具。主要用于从大型数据库中筛选符合研究条件的样本及相关表型信息。
蛋白质组学分析
场景引导:分析蛋白质表达数据或研究蛋白质与疾病关系时使用
包含蛋白质数据预处理、差异表达分析和蛋白质数量性状位点(pQTL)分析工具。适用于蛋白质组学相关的转化医学研究。
结果可视化工具
场景引导:需要展示分析结果或生成 publication 级图表时使用
提供多种统计可视化方案,支持GWAS结果、表型数据和蛋白质组学数据的可视化呈现。
场景化使用流程
场景一:全基因组关联分析(GWAS)
数据准备与质控
-
提取并预处理表型数据
jupyter notebook end_to_end_gwas_phewas/get-phewas-data.ipynb -
执行样本质量控制
jupyter notebook GWAS/gwas-phenotype-samples-qc.ipynb
💡 注意事项:确保表型数据与基因型数据的样本ID匹配,建议在质控步骤保留至少90%的原始样本
基因型数据处理
-
运行基因型数据质控工作流
dx run app-wdl -i wdl=end_to_end_gwas_phewas/bgens_qc/bgens_qc.wdl -i json=end_to_end_gwas_phewas/bgens_qc/generate_inputs.ipynb -
执行基因型数据格式转换(如需要) 参考
format_conversion/bgen_compression_conversion.md文档
关联分析执行
-
运行Regenie第一步分析(协变量调整)
bash GWAS/regenie_workflow/partD-step1-regenie.sh -
运行Regenie第二步分析(关联测试)
bash GWAS/regenie_workflow/partF-step2-regenie.sh
💡 注意事项:根据样本量调整计算资源,建议每个染色体分配至少4GB内存
结果处理与可视化
-
合并关联分析结果
bash GWAS/regenie_workflow/partG-merge-regenie-files.sh -
生成曼哈顿图和QQ图
jupyter notebook gwas_visualization/gwas_results_Python.ipynb
场景二:蛋白质组学数据分析
数据提取与预处理
-
提取蛋白质表型数据
jupyter notebook proteomics/0_extract_phenotype_protein_data.ipynb -
数据预处理与探索性分析
jupyter notebook proteomics/protein_DE_analysis/1_preprocess_explore_data.ipynb
差异表达分析
- 执行蛋白质差异表达分析
jupyter notebook proteomics/protein_DE_analysis/2_differential_expression_analysis.ipynb
💡 注意事项:确保正确设置对照组和实验组,建议使用limma或DESeq2方法进行差异分析
蛋白质QTL分析
- 准备pQTL分析输入数据
jupyter notebook proteomics/protein_pQTL/1_simulate_input_data.ipynb
核心文件速查
关键启动文件
GWAS分析启动脚本
-
partD-step1-regenie.sh
- 路径:
GWAS/regenie_workflow/ - 功能:执行Regenie第一步分析,进行协变量调整和初步关联分析
- 参数说明:
# 主要参数 --step 1 # 指定执行第一步分析 --bed ${genotype_data} # 输入基因型数据路径 --phenoFile ${phenotype} # 表型数据文件 --covarFile ${covariates} # 协变量文件 --out ${output_prefix} # 输出文件前缀
- 路径:
-
partF-step2-regenie.sh
- 路径:
GWAS/regenie_workflow/ - 功能:执行Regenie第二步分析,进行精确关联测试
- 路径:
工作流定义文件
- view_and_count.wdl
- 路径:
WDL/ - 功能:定义数据查看和计数工作流
- 输入参数文件:
view_and_count.input.json
- 路径:
重要配置文件
应用配置文件
- dxapp.json
- 路径:
apps_workflows/samtools_count_apt/和docker_apps/samtools_count_docker/ - 功能:定义DNAnexus应用属性和输入输出参数
- 常见配置项:
{ "name": "samtools_count", "title": "Samtools Count Reads", "summary": "Count reads in BAM files using samtools", "dxapi": "1.0.0", "inputSpec": [ { "name": "bam_file", "class": "file", "optional": false, "help": "Input BAM file" } ] }
- 路径:
工作流输入文件
- view_and_count.input.json
- 路径:
WDL/ - 功能:为WDL工作流提供输入参数
- 配置示例:
{ "view_and_count.bam_file": { "$dnanexus_link": "file-xxxx" }, "view_and_count.region": "chr1:1-100000" }
- 路径:
常见问题解决方案
配置文件问题
-
工作流参数不匹配
- 症状:工作流执行时报参数错误
- 解决:检查输入JSON文件与WDL定义的参数是否一致,确保所有必填参数都有提供
-
路径配置错误
- 症状:文件找不到或路径错误
- 解决:使用绝对路径或确保相对路径相对于工作目录,在UKB_RAP平台上可使用
dx find data命令查找正确的数据路径
数据分析问题
-
内存不足
- 症状:分析过程中程序崩溃或卡住
- 解决:调整工作流资源配置,增加内存分配,或拆分大型数据集进行分步分析
-
样本ID不匹配
- 症状:基因型和表型数据合并错误
- 解决:使用
end_to_end_gwas_phewas/run_array_qc.sh脚本进行样本ID一致性检查和校正
环境设置与项目管理
R环境配置
场景引导:需要R环境进行统计分析时使用
# 安装并加载所需包
source("rstudio_demo/export_phenotypes.R")
# 生成可重现环境报告
rmarkdown::render("rstudio_demo/renv_reproducible_environments.Rmd")
💡 注意事项:使用renv包管理R依赖,确保分析环境可重现
Jupyter Notebook使用
所有IPython Notebook文件可通过Jupyter环境打开和运行:
# 启动Jupyter Notebook服务器
jupyter notebook
在浏览器中访问提示的URL,导航到目标Notebook文件即可开始分析。
总结
UKB_RAP平台提供了全面的科研分析工具集,支持从数据处理到结果可视化的完整研究流程。通过本文档介绍的功能模块和使用流程,研究者可以高效利用平台资源开展各类生物医学研究。建议根据具体研究需求,选择合适的功能模块和工作流,以实现高效、可重复的科学发现。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00