知识图谱构建与实体关系抽取：零基础上手中医药知识图谱实战指南

2026-03-08 04:46:23作者：谭伦延

如何将海量中医药文献转化为结构化的知识图谱？实体关系抽取作为知识图谱构建的核心技术，如何突破专业术语理解难、关系类型复杂等挑战？本文将以ShenNong-LLM模型为工具，带你从零开始掌握知识图谱构建全流程，通过实体关系抽取技术挖掘中医药领域的隐藏知识，让古籍智慧实现数字化重生。

一、实体关系抽取技术解析：从文本到图谱的桥梁

你是否好奇计算机如何理解"金银花具有清热解毒功效"这样的专业表述？实体关系抽取技术正是连接非结构化文本与结构化知识图谱的关键纽带。在中医药领域，这一技术需要解决三大核心问题：古文术语识别、多类型关系分类、领域知识适配。

图1：中医药知识图谱构建的技术架构（含实体关系抽取核心模块）

核心技术原理

实体关系抽取本质是基于预训练语言模型的序列标注任务，通过以下步骤实现：

实体识别：定位文本中的中药、病症、方剂等实体
关系分类：判断实体间存在的"治疗"、"归经"等语义关系
三元组生成：输出(实体1, 关系, 实体2)标准化结构

ShenNong-LLM通过以下优化提升领域性能：

预训练阶段融入11万+中医药指令数据
针对古文语境优化分词器
采用领域适配的关系分类头

💡 技术提示：实体关系抽取的F1值受实体边界识别和关系类型判断双重影响，建议通过领域词典增强实体识别精度。

二、知识图谱构建实践指南：从环境搭建到图谱存储

如何将理论转化为实际应用？以下实践指南将带你完成知识图谱构建的全流程，包含环境配置、模型调用、结果存储三个关键环节。

1. 环境准备

首先克隆项目仓库并安装依赖：

git clone https://gitcode.com/GitHub_Trending/aw/Awesome-Chinese-LLM
cd Awesome-Chinese-LLM
pip install -r requirements.txt  # 包含transformers、torch等依赖库

2. 模型加载与调用

加载ShenNong-LLM模型并实现基础实体关系抽取：

from transformers import AutoTokenizer, AutoModelForCausalLM

# 初始化分词器和模型
tokenizer = AutoTokenizer.from_pretrained("michael-wzhu/ShenNong-TCM-LLM")
model = AutoModelForCausalLM.from_pretrained(
    "michael-wzhu/ShenNong-TCM-LLM",
    device_map="auto"  # 自动选择运行设备（CPU/GPU）
)

def extract_entities_relations(text):
    """从文本中提取实体关系三元组"""
    prompt = f"""任务：从以下中医药文本中提取实体关系，格式为(实体1, 关系, 实体2)。
文本：{text}
结果："""
    
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(
        **inputs,
        max_new_tokens=200,
        temperature=0.2  # 低温度设置提高结果稳定性
    )
    
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# 测试《本草纲目》选段
sample_text = "麻黄，味辛微苦，性温，归肺膀胱经，能发汗散寒、宣肺平喘，治风寒感冒、胸闷喘咳。"
print(extract_entities_relations(sample_text))
# 输出：(麻黄, 性味, 辛微苦温), (麻黄, 归经, 肺膀胱经), (麻黄, 功效, 发汗散寒), (麻黄, 主治, 风寒感冒)

💡 实践提示：处理长篇文献时，建议采用滑动窗口方法分块处理，避免超出模型最大输入长度限制。

3. 知识图谱存储实现

使用Neo4j存储抽取结果，构建可查询的知识图谱：

from neo4j import GraphDatabase

class TCMKGStore:
    def __init__(self, uri, user, password):
        self.driver = GraphDatabase.driver(uri, auth=(user, password))
    
    def close(self):
        self.driver.close()
    
    def save_triple(self, subj, rel, obj):
        """保存三元组到知识图谱"""
        with self.driver.session() as session:
            session.run("""
                MERGE (s:Entity {name: $subj})
                MERGE (o:Entity {name: $obj})
                MERGE (s)-[r:RELATION {type: $rel}]->(o)
            """, subj=subj, rel=rel, obj=obj)

# 使用示例
kg_store = TCMKGStore("bolt://localhost:7687", "neo4j", "password")
extracted_results = [
    ("麻黄", "性味", "辛微苦温"),
    ("麻黄", "归经", "肺膀胱经"),
    ("麻黄", "功效", "发汗散寒")
]
for triple in extracted_results:
    kg_store.save_triple(*triple)
kg_store.close()

图2：中医药知识图谱中的实体关系网络结构

4. 新增实用功能模块

模块一：关系冲突检测

def detect_relation_conflicts(triples):
    """检测矛盾关系（如同一中药出现相反性味描述）"""
    conflicts = []
    entity_relations = {}
    
    for subj, rel, obj in triples:
        key = (subj, rel)
        if key in entity_relations:
            if entity_relations[key] != obj:
                conflicts.append(f"冲突关系：{subj} {rel} {entity_relations[key]} 与 {obj}")
        else:
            entity_relations[key] = obj
    
    return conflicts

模块二：批量处理工具

def batch_process_txt_files(input_dir, output_file):
    """批量处理目录下的文本文件并输出抽取结果"""
    import os
    results = []
    
    for filename in os.listdir(input_dir):
        if filename.endswith(".txt"):
            with open(os.path.join(input_dir, filename), "r", encoding="utf-8") as f:
                text = f.read()
                results.append(extract_entities_relations(text))
    
    with open(output_file, "w", encoding="utf-8") as f:
        f.write("\n".join(results))