中医药知识图谱实战：基于ShenNong-LLM突破古籍数字化难题

2026-03-08 04:40:44作者：申梦珏Efrain

在中医药传承与创新的道路上，如何让千年古籍中的智慧焕发新生？Awesome-Chinese-LLM项目收录的ShenNong-LLM模型给出了答案。作为专为中医药领域优化的大语言模型，它基于Chinese-Alpaca-Plus-7B基座训练，内置11万+中医药指令数据，在实体识别任务上F1值达0.89，支持单机GPU轻量化部署，为中医药知识的现代化转化提供了强大工具。

痛点引入：中医药数字化的三大行业难题

你是否遇到过这样的困境：面对堆积如山的中医药典籍，想要快速找到特定病症的治疗方剂却无从下手？在中医药数字化进程中，三大难题始终困扰着从业者。

古籍文本解析效率低下

传统的人工标注方式如同大海捞针，一位专家一天最多处理5000字文献，面对《本草纲目》这样的鸿篇巨制，完成全部标注需要数年时间。更糟糕的是，不同专家对古文术语的理解存在差异，导致标注结果不一致，严重影响后续研究的可靠性。

实体关系抽取准确率不足

通用的自然语言处理模型在面对中医药领域的专业术语时往往力不从心。"君臣佐使"、"四气五味"等概念具有独特的文化内涵，普通模型难以准确识别，导致实体关系抽取的准确率普遍低于60%，无法满足临床应用的需求。

知识图谱构建成本高昂

传统的知识图谱构建需要大量的人力物力投入，不仅要聘请中医药专家进行知识梳理，还要开发复杂的标注工具和存储系统。一个中等规模的中医药知识图谱项目往往需要数百万的资金支持，让许多研究机构望而却步。

技术方案：ShenNong-LLM引领中医药AI革命

面对这些难题，ShenNong-LLM给出了创新的解决方案。它究竟有何过人之处？让我们通过与传统方案的对比来一探究竟。

核心创新点解析

ShenNong-LLM的核心创新在于将大语言模型与中医药领域知识深度融合。它不仅能够理解现代汉语，还能精准解析古文术语，实现了中医药实体关系的高效抽取。与传统方案相比，它具有以下优势：

对比维度	传统方案	ShenNong-LLM方案
处理效率	人工标注，日均5000字	自动化处理，日均100万字
准确率	约60%	89%
成本投入	数百万	数万元
部署难度	复杂，需专业团队	简单，支持单机GPU

技术架构解析

ShenNong-LLM的技术架构可以概括为"三层金字塔"结构：数据层、模型层和应用层。

数据层是整个系统的基础，包含了11万+中医药指令数据，涵盖了中药、病症、方剂等多个方面。这些数据经过精心整理和标注，为模型的训练提供了坚实的基础。

模型层是系统的核心，基于Chinese-Alpaca-Plus-7B基座构建，通过迁移学习和领域适配，使其能够理解中医药专业知识。模型采用了轻量化设计，支持在普通GPU上运行，大大降低了部署门槛。

应用层是系统的价值体现，提供了实体关系抽取、知识图谱构建等功能接口，方便开发者集成到各种应用场景中。

图：中医药知识图谱的三层架构（数据层/模型层/应用层）

实施路径：从零开始构建中医药知识图谱

如何利用ShenNong-LLM构建中医药知识图谱？让我们一步步来实现。

环境准备：搭建你的AI实验室

目标：配置ShenNong-LLM运行环境操作：

git clone https://gitcode.com/GitHub_Trending/aw/Awesome-Chinese-LLM
cd Awesome-Chinese-LLM
pip install -r requirements.txt

预期结果：成功安装transformers、torch等必要依赖库，为后续模型加载做好准备。

核心功能实现：实体关系抽取

目标：使用ShenNong-LLM抽取中药与功效之间的关系操作：

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("michael-wzhu/ShenNong-TCM-LLM")
model = AutoModelForCausalLM.from_pretrained(
    "michael-wzhu/ShenNong-TCM-LLM",
    device_map="auto"  # 自动分配设备，支持CPU/GPU切换
)

def extract_relations(text):
    """从文本中提取实体关系"""
    prompt = f"""从以下文本中提取实体关系，格式为(实体1, 关系, 实体2)：
    文本：{text}
    结果："""
    
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(
        **inputs,
        max_new_tokens=200,  # 限制生成文本长度
        temperature=0.3  # 降低随机性，提高抽取稳定性
    )
    
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# 测试文本来自《本草纲目》
text = "金银花，性甘寒，归肺心胃经，具有清热解毒、凉血消肿之功效，可治痈肿疔疮、喉痹、丹毒。"
print(extract_relations(text))

预期结果：输出金银花的性味、归经、功效和主治等关系，如(金银花, 性味, 甘寒), (金银花, 归经, 肺心胃经)等。

结果验证：知识图谱存储与可视化

目标：将抽取的实体关系存储到Neo4j图数据库并可视化操作：

from neo4j import GraphDatabase

class KGHandler:
    def __init__(self, uri, user, password):
        self.driver = GraphDatabase.driver(uri, auth=(user, password))
    
    def add_relation(self, entity1, relation, entity2):
        """添加实体关系到知识图谱"""
        with self.driver.session() as session:
            session.run("""
                MERGE (a:Entity {name: $entity1})
                MERGE (b:Entity {name: $entity2})
                MERGE (a)-[r:RELATION {type: $relation}]->(b)
            """, entity1=entity1, relation=relation, entity2=entity2)

# 初始化连接并存储结果
kg = KGHandler("bolt://localhost:7687", "neo4j", "password")
extracted_triples = [("金银花", "性味", "甘寒"), ("金银花", "归经", "肺心胃经"), 
                     ("金银花", "功效", "清热解毒"), ("金银花", "主治", "痈肿疔疮")]
for triple in extracted_triples:
    kg.add_relation(*triple)