突破中医药知识挖掘难题：基于ShenNong-LLM的实体关系抽取全流程实践

2026-03-08 04:30:16作者：卓炯娓

在中医药研究领域，面对海量古籍文献与现代临床数据，如何高效提取"中药-功效"、"症状-方剂"等关键实体关系一直是行业痛点。传统人工标注方式不仅耗时耗力，且难以应对知识的快速迭代。本文将介绍如何利用华东师范大学开源的ShenNong-LLM模型，构建一套自动化的中医药知识抽取系统。通过本文的实践指南，读者将掌握从环境部署到模型应用的完整流程，获得可直接落地的技术方案，显著提升中医药知识图谱构建效率。

一、行业痛点：中医药知识挖掘的三大挑战

中医药知识体系具有术语晦涩、关系复杂、文献分散的特点，传统处理方式面临三大核心难题：

术语理解障碍：古文术语如"君臣佐使"、"四气五味"等专业概念的计算机解析困难
关系抽取精度低：通用NLP模型在中医药领域实体识别F1值普遍低于0.75
知识更新滞后：人工构建知识图谱平均周期超过6个月，难以跟上研究进展

ShenNong-LLM作为专为中医药领域优化的大语言模型，基于Chinese-Alpaca-Plus-7B基座训练，内置11万+中医药指令数据，在实体识别任务上F1值达0.89，为解决上述问题提供了技术可能。

图1：中医药大模型应用架构（包含12个主要模型分支及应用场景）

二、技术方案：ShenNong-LLM的核心优势

2.1 模型特性解析

ShenNong-LLM针对中医药领域进行了深度优化，具备三大核心优势：

领域知识嵌入：通过11万+中医药专业语料微调，实现对古文术语的精准理解
轻量化部署：7B参数规模支持单机GPU运行，显存占用低于12GB
多任务支持：同时支持实体识别、关系抽取、方剂推荐等8类中医药特定任务

2.2 技术架构设计

系统采用三层架构设计：

数据层：处理中医药文献、临床记录等多源数据
模型层：基于ShenNong-LLM实现实体关系抽取
应用层：构建知识图谱并提供查询、推理接口

三、实践指南：从环境部署到成果验证

3.1 环境准备阶段

3.1.1 项目克隆与依赖安装

首先克隆项目仓库并安装必要依赖：

git clone https://gitcode.com/GitHub_Trending/aw/Awesome-Chinese-LLM
cd Awesome-Chinese-LLM
pip install -r requirements.txt  # 包含transformers、torch等核心依赖

3.1.2 模型加载配置

加载ShenNong-LLM模型，支持CPU/GPU自动切换：

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained("michael-wzhu/ShenNong-TCM-LLM")

# 加载模型，自动分配设备
model = AutoModelForCausalLM.from_pretrained(
    "michael-wzhu/ShenNong-TCM-LLM",
    device_map="auto"  # 自动选择GPU或CPU
)

📌 注意事项：模型首次加载需下载约13GB数据，请确保网络通畅；推理建议使用16GB以上显存GPU以获得最佳性能。

3.2 核心功能实现

3.2.1 实体关系抽取函数

实现中医药实体关系抽取的核心函数：

def extract_tcm_relations(text):
    """
    功能说明：从中医药文本中提取实体关系三元组
    参数解析：
        text: 输入的中医药文本，如古籍段落或临床记录
    返回值：包含(实体1, 关系, 实体2)格式的三元组列表
    """
    prompt = f"""请从以下中医药文本中提取实体关系，格式为(实体1, 关系类型, 实体2)：
    文本：{text}
    注意：关系类型包括但不限于：性味、归经、功效、主治、配伍、禁忌
    结果："""
    
    # 编码输入
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    
    # 生成输出
    outputs = model.generate(
        **inputs,
        max_new_tokens=200,  # 限制生成长度
        temperature=0.3,     # 降低随机性，提高抽取稳定性
        top_p=0.95           #  nucleus采样参数
    )
    
    # 解码结果
    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return result.split(", ")  # 分割多个三元组

3.2.2 知识图谱存储实现

使用Neo4j存储抽取的实体关系：

from neo4j import GraphDatabase

class TCMKGHandler:
    """中医药知识图谱处理类"""
    
    def __init__(self, uri, user, password):
        self.driver = GraphDatabase.driver(uri, auth=(user, password))
    
    def close(self):
        self.driver.close()
    
    def add_relation(self, entity1, relation, entity2):
        """添加实体关系到知识图谱"""
        with self.driver.session() as session:
            session.run("""
                MERGE (a:Entity {name: $entity1})
                MERGE (b:Entity {name: $entity2})
                MERGE (a)-[r:RELATION {type: $relation}]->(b)
            """, entity1=entity1, relation=relation, entity2=entity2)

3.3 成果验证流程

3.3.1 功能测试

使用《本草纲目》原文进行测试：

# 测试文本
text = "金银花，性甘寒，归肺心胃经，具有清热解毒、凉血消肿之功效，可治痈肿疔疮、喉痹、丹毒。"

# 抽取关系
relations = extract_tcm_relations(text)
print("抽取结果：")
for triple in relations:
    print(triple)

# 存储到知识图谱
kg = TCMKGHandler("bolt://localhost:7687", "neo4j", "password")
for triple in relations:
    # 解析三元组
    entity1, relation, entity2 = eval(triple)  # 注意：实际应用中需增加错误处理
    kg.add_relation(entity1, relation, entity2)
kg.close()