探索Biopython在代谢组学研究中的应用价值：从通路解析到网络可视化的系统方法

2026-04-07 12:02:15作者：翟萌耘Ralph

引言：Biopython与代谢组学研究的融合

在生物信息学领域，代谢通路分析是揭示生物体生理状态和疾病机制的关键手段。京都基因与基因组百科全书(KEGG)作为整合基因、蛋白质和代谢物信息的权威数据库，为系统生物学研究提供了丰富资源。Biopython通过Bio/KEGG/模块实现了对KEGG数据库的深度整合，为研究人员提供了从数据获取、解析到可视化的完整工作流，极大简化了代谢组学数据分析流程。

技术实现指南：从数据获取到可视化的完整流程

本节详细介绍如何利用Biopython实现KEGG代谢通路分析的核心功能，包括数据获取、KGML解析和可视化呈现三个关键环节。

1. KEGG数据获取与处理

Biopython的REST模块提供了访问KEGG数据库的接口，支持多种数据类型的获取。以下示例展示如何获取特定物种的代谢通路列表及其详细信息。

from Bio.KEGG import REST
import json

def get_organism_pathways(organism_code):
    """获取指定物种的所有代谢通路信息"""
    # 获取通路列表
    pathways = REST.kegg_list("pathway", organism_code).read().splitlines()
    
    pathway_info = {}
    for line in pathways:
        if line.startswith(f"path:{organism_code}"):
            kegg_id, description = line.split("\t")
            pathway_info[kegg_id] = {
                "description": description,
                "genes": [],
                "compounds": []
            }
    
    # 获取第一条通路的详细信息作为示例
    if pathway_info:
        first_pathway = next(iter(pathway_info.keys()))
        pathway_details = REST.kegg_get(first_pathway).read()
        pathway_info[first_pathway]["details"] = pathway_details
    
    return pathway_info

# 获取大肠杆菌的代谢通路信息
ecoli_pathways = get_organism_pathways("eco")
print(f"获取到{len(ecoli_pathways)}条大肠杆菌代谢通路")
print(f"第一条通路信息：{ecoli_pathways[next(iter(ecoli_pathways.keys()))]['description']}")

2. KGML文件解析与数据提取

KGML(KEGG Markup Language)是KEGG通路的XML表示格式，Biopython的Bio/KEGG/KGML/模块提供了解析功能。以下代码展示如何解析KGML文件并提取通路中的节点和关系信息。

from Bio.KEGG.KGML import KGML_parser
from Bio.KEGG import REST
import os

def parse_kgml(pathway_id, save_file=True):
    """解析KGML文件并提取通路中的节点和关系"""
    # 获取KGML数据
    kgml_data = REST.kegg_get(pathway_id, "kgml").read()
    
    # 保存KGML文件
    if save_file:
        with open(f"{pathway_id}.kgml", "w") as f:
            f.write(kgml_data)
    
    # 解析KGML
    pathway = KGML_parser.read(open(f"{pathway_id}.kgml"))
    
    # 提取节点信息
    nodes = []
    for entry in pathway.entries:
        node = {
            "id": entry.id,
            "name": entry.name,
            "type": entry.type,
            "x": entry.graphics.x,
            "y": entry.graphics.y,
            "width": entry.graphics.width,
            "height": entry.graphics.height,
            "labels": [label.text for label in entry.graphics.labels]
        }
        nodes.append(node)
    
    # 提取关系信息
    relations = []
    for relation in pathway.relations:
        rel = {
            "entry1": relation.entry1,
            "entry2": relation.entry2,
            "type": relation.type,
            "subtypes": [st.name for st in relation.subtypes]
        }
        relations.append(rel)
    
    return {"nodes": nodes, "relations": relations, "pathway": pathway}

# 解析大肠杆菌的中心碳代谢通路
eco_central_carbon = parse_kgml("eco00010")
print(f"解析完成：{len(eco_central_carbon['nodes'])}个节点，{len(eco_central_carbon['relations'])}个关系")

3. 代谢通路可视化实现

Biopython结合matplotlib可实现代谢通路的可视化展示。以下示例展示如何基于解析的KGML数据绘制通路图。

import matplotlib.pyplot as plt
from Bio.KEGG.KGML import KGML_parser

def visualize_pathway(kgml_file, output_file=None):
    """可视化代谢通路图"""
    pathway = KGML_parser.read(open(kgml_file))
    
    # 创建图形
    fig, ax = plt.subplots(figsize=(15, 10))
    
    # 绘制节点
    for entry in pathway.entries:
        if hasattr(entry.graphics, 'x') and hasattr(entry.graphics, 'y'):
            # 根据不同类型设置不同颜色
            color_map = {
                'gene': 'lightblue',
                'compound': 'lightgreen',
                'enzyme': 'salmon',
                'reaction': 'khaki',
                'pathway': 'plum'
            }
            color = color_map.get(entry.type, 'gray')
            
            # 绘制矩形节点
            rect = plt.Rectangle(
                (entry.graphics.x, entry.graphics.y),
                entry.graphics.width,
                entry.graphics.height,
                facecolor=color,
                alpha=0.7,
                edgecolor='black'
            )
            ax.add_patch(rect)
            
            # 添加标签
            if entry.graphics.labels:
                ax.text(
                    entry.graphics.x + entry.graphics.width/2,
                    entry.graphics.y + entry.graphics.height/2,
                    entry.graphics.labels[0].text,
                    ha='center', va='center', fontsize=8
                )
    
    # 绘制关系连线
    for relation in pathway.relations:
        entry1 = pathway.get_entry_by_id(relation.entry1)
        entry2 = pathway.get_entry_by_id(relation.entry2)
        
        if (hasattr(entry1.graphics, 'x') and hasattr(entry1.graphics, 'y') and
            hasattr(entry2.graphics, 'x') and hasattr(entry2.graphics, 'y')):
            
            # 计算节点中心坐标
            x1 = entry1.graphics.x + entry1.graphics.width/2
            y1 = entry1.graphics.y + entry1.graphics.height/2
            x2 = entry2.graphics.x + entry2.graphics.width/2
            y2 = entry2.graphics.y + entry2.graphics.height/2
            
            # 绘制连线
            ax.plot([x1, x2], [y1, y2], 'k-', alpha=0.5)
    
    # 设置图形属性
    ax.set_aspect('equal')
    ax.set_xlim(0, max(e.graphics.x + e.graphics.width for e in pathway.entries if hasattr(e.graphics, 'x')))
    ax.set_ylim(0, max(e.graphics.y + e.graphics.height for e in pathway.entries if hasattr(e.graphics, 'y')))
    ax.axis('off')
    plt.title(f"KEGG Pathway: {pathway.name}")
    
    if output_file:
        plt.savefig(output_file, dpi=300, bbox_inches='tight')
    else:
        plt.show()

# 可视化之前保存的KGML文件
visualize_pathway("eco00010.kgml", "eco_central_carbon_pathway.png")

图1：三轨比较基因组可视化 - 展示了不同物种间基因组区域的共线性比较，不同颜色代表不同的功能区域和保守性程度。

高级功能：代谢网络分析的进阶技巧

Biopython提供了多种高级功能，帮助研究人员深入分析代谢网络的结构和功能特性，发现潜在的调控机制和关键节点。

1. 代谢网络拓扑结构分析

通过将代谢通路转换为图结构，可以分析网络的拓扑特性，如节点度分布、路径长度和聚类系数等。

import networkx as nx
from Bio.KEGG.KGML import KGML_parser

def analyze_network_topology(kgml_file):
    """分析代谢网络的拓扑结构特征"""
    pathway = KGML_parser.read(open(kgml_file))
    
    # 创建有向图
    G = nx.DiGraph()
    
    # 添加节点
    for entry in pathway.entries:
        G.add_node(entry.id, type=entry.type, name=entry.name)
    
    # 添加边
    for relation in pathway.relations:
        G.add_edge(relation.entry1, relation.entry2, type=relation.type)
    
    # 计算网络属性
    topology = {
        "nodes": G.number_of_nodes(),
        "edges": G.number_of_edges(),
        "average_degree": sum(dict(G.degree()).values()) / G.number_of_nodes(),
        "diameter": nx.diameter(G) if G.number_of_nodes() > 0 else 0,
        "clustering_coefficient": nx.average_clustering(G.to_undirected()),
        "connected_components": nx.number_weakly_connected_components(G)
    }
    
    return topology, G

# 分析中心碳代谢通路的拓扑结构
topology, graph = analyze_network_topology("eco00010.kgml")
print(f"网络拓扑分析结果：{topology}")

2. 基于表达数据的通路着色

将转录组或蛋白质组数据映射到代谢通路上，可以直观展示不同条件下的代谢活性变化。

import matplotlib.pyplot as plt
import numpy as np
from Bio.KEGG.KGML import KGML_parser

def pathway_with_expression(kgml_file, expression_data, output_file=None):
    """将表达数据映射到代谢通路上并可视化"""
    pathway = KGML_parser.read(open(kgml_file))
    
    # 创建图形
    fig, ax = plt.subplots(figsize=(15, 10))
    
    # 准备颜色映射
    from matplotlib.colors import LinearSegmentedColormap
    cmap = LinearSegmentedColormap.from_list("expr_cmap", ["blue", "white", "red"])
    
    # 绘制节点
    for entry in pathway.entries:
        if hasattr(entry.graphics, 'x') and hasattr(entry.graphics, 'y') and entry.type == 'gene':
            # 获取表达数据，默认为0
            gene_id = entry.name.split(":")[-1] if ":" in entry.name else entry.name
            expr_value = expression_data.get(gene_id, 0)
            
            # 根据表达值确定颜色
            color = cmap((expr_value + 2) / 4)  # 假设表达值范围为-2到2
            
            # 绘制矩形节点
            rect = plt.Rectangle(
                (entry.graphics.x, entry.graphics.y),
                entry.graphics.width,
                entry.graphics.height,
                facecolor=color,
                alpha=0.8,
                edgecolor='black'
            )
            ax.add_patch(rect)
            
            # 添加标签
            if entry.graphics.labels:
                ax.text(
                    entry.graphics.x + entry.graphics.width/2,
                    entry.graphics.y + entry.graphics.height/2,
                    entry.graphics.labels[0].text,
                    ha='center', va='center', fontsize=8
                )
    
    # 添加颜色条
    sm = plt.cm.ScalarMappable(cmap=cmap, norm=plt.Normalize(vmin=-2, vmax=2))
    sm.set_array([])
    cbar = plt.colorbar(sm, ax=ax)
    cbar.set_label('Gene Expression (log2 Fold Change)')
    
    # 设置图形属性
    ax.set_aspect('equal')
    ax.axis('off')
    plt.title(f"KEGG Pathway with Expression Data: {pathway.name}")
    
    if output_file:
        plt.savefig(output_file, dpi=300, bbox_inches='tight')
    else:
        plt.show()

# 模拟表达数据
expression_data = {
    "b0002": 1.5, "b0003": -0.8, "b0004": 2.0, 
    "b0005": -1.2, "b0008": 0.5, "b0010": -1.8
}

# 绘制带表达数据的通路图
pathway_with_expression("eco00010.kgml", expression_data, "pathway_with_expression.png")