基于ShenNong-LLM的中医药知识图谱构建实践:从实体关系抽取到智能应用
2026-03-08 04:49:02作者:董宙帆
在数字化时代,中医药领域面临着海量文献知识难以有效整合的挑战。如何将分散在古籍、论文中的中医药知识转化为结构化的知识图谱,实现高效检索与智能应用?本文将以知识图谱构建为核心,详细介绍使用ShenNong-LLM模型进行实体关系抽取的全流程,为中医药现代化提供技术支持。
核心价值:为何选择ShenNong-LLM构建知识图谱?
知识图谱构建的关键在于准确提取实体与关系,传统方法依赖人工标注,效率低下。ShenNong-LLM作为专为中医药领域优化的大语言模型,具备三大核心优势:首先,它能精准理解"四气五味"、"君臣佐使"等专业术语;其次,在中医药实体识别任务上F1值达0.89,远超通用模型;最后,7B参数规模支持单机GPU部署,满足私有化需求。这些特性使其成为中医药知识图谱构建的理想工具。
技术方案:知识图谱构建的完整流程
环境配置与模型加载
如何快速搭建知识图谱构建环境?首先克隆项目仓库并安装依赖:
git clone https://gitcode.com/GitHub_Trending/aw/Awesome-Chinese-LLM
cd Awesome-Chinese-LLM
pip install -r requirements.txt
加载ShenNong-LLM模型的代码如下:
from transformers import AutoTokenizer, AutoModelForCausalLM
def load_shennong_model(model_path="michael-wzhu/ShenNong-TCM-LLM"):
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto",
load_in_4bit=True # 启用4-bit量化,降低显存占用
)
return tokenizer, model
tokenizer, model = load_shennong_model()
实体关系抽取实现
实体关系抽取是知识图谱构建的核心环节。以下是改进后的抽取函数,支持多种关系类型:
def extract_entities_relations(text, relation_types=["性味", "归经", "功效", "主治"]):
relation_prompt = ", ".join(relation_types)
prompt = f"""任务:从文本中提取指定类型的实体关系,格式为(实体1, 关系, 实体2)
可用关系类型:{relation_prompt}
文本:{text}
结果:"""
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=300,
temperature=0.2,
top_p=0.95
)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
# 解析结果为三元组列表
triples = []
for item in result.split("), ("):
item = item.strip("()")
if "," in item:
triples.append(tuple(map(str.strip, item.split(","))))
return triples
# 测试案例
text = "黄芪,味甘,性微温,归脾、肺经,具有补气升阳、固表止汗、利水消肿之功效,主治气虚乏力、食少便溏。"
relations = extract_entities_relations(text)
print(relations)
知识图谱存储与可视化
如何将抽取的关系数据有效存储?使用Neo4j数据库的示例代码如下:
from neo4j import GraphDatabase
class TCMKG:
def __init__(self, uri, user, password):
self.driver = GraphDatabase.driver(uri, auth=(user, password))
self.create_constraints()
def create_constraints(self):
with self.driver.session() as session:
session.run("CREATE CONSTRAINT IF NOT EXISTS FOR (e:Entity) REQUIRE e.name IS UNIQUE")
def insert_triple(self, entity1, relation, entity2):
with self.driver.session() as session:
session.run("""
MERGE (a:Entity {name: $e1})
MERGE (b:Entity {name: $e2})
MERGE (a)-[r:RELATION {type: $rel}]->(b)
RETURN a, r, b
""", e1=entity1, rel=relation, e2=entity2)
# 使用示例
kg = TCMKG("bolt://localhost:7687", "neo4j", "password")
for triple in relations:
kg.insert_triple(*triple)
图:中医药知识图谱的三层架构(数据层/模型层/应用层),展示了医学类大模型的应用生态
实战案例:构建中药配伍知识图谱
如何将理论应用于实际场景?以《本草纲目》部分内容为例,构建中药配伍知识图谱:
- 数据采集:爬取《本草纲目》在线文本,提取中药条目
- 实体识别:使用ShenNong-LLM识别中药、病症、功效等实体
- 关系抽取:提取"配伍"、"禁忌"、"炮制"等关系
- 图谱构建:导入Neo4j并进行可视化展示
图:基于LLM构建的中药知识图谱关系网络,展示了不同中药之间的关联关系
常见问题解决
在知识图谱构建过程中,可能会遇到以下问题:
- 模型推理速度慢:解决方案:启用模型量化(如4-bit/8-bit),使用更小的模型变体,或采用批量处理方式
- 实体识别准确率低:解决方案:增加领域特定训练数据,调整prompt模板,使用实体链接技术
- 关系抽取结果重复:解决方案:在存储前进行去重处理,设置关系置信度阈值
- 图谱规模过大:解决方案:采用分层次存储策略,实现增量更新机制
- 中文古籍处理困难:解决方案:结合OCR技术预处理扫描版古籍,使用古汉语分词工具
资源整合
| 资源类型 | 描述 | 路径 |
|---|---|---|
| 模型文件 | ShenNong-LLM中医药大模型 | model/ShenNong-TCM-LLM |
| 数据集 | 中医药领域指令数据集 | doc/Medical.md |
| 技术文档 | 知识图谱构建指南 | docs/kg_construction.md |
| 代码示例 | 实体关系抽取脚本 | examples/relation_extraction.py |
| 社区支持 | 项目讨论区 | community/discussions |
通过本文介绍的方法,您可以快速构建中医药知识图谱,为智能诊疗、药物研发等领域提供强有力的知识支撑。随着技术的不断发展,知识图谱与LLM的结合将为中医药现代化带来更多可能性。建议结合实际需求,持续优化模型和算法,推动中医药知识的传承与创新。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust060
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Hy3-previewHy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。Python00
热门内容推荐
最新内容推荐
Paperless-ngx 扫描没反应? 带你手撕 Celery 任务队列架构漏洞库又更新了!Shannon 自动化审计 CVE-2024-41242 修复免费版 Shannon Lite 够用吗?对比 Pro 版的 5 大差异扫描万份文档后,我把无纸化-ngx压测到了极限深度解析源码:如何构建千万级代码知识库?日期过滤故障?Paperless-ngx 搜索筛选器异常排错深度定制:如何给Paperless-ngx增加一个国产发票识别模块连不上 Temporal?Shannon 本地环境的 3 个网络诊断秘诀3分钟内搞定Paperless-ngx部署:无意官方文档里没讲的5个坑拒绝“大杂烩”存储!深度解析 Paperless-ngx 动态路径重构逻辑
项目优选
收起
暂无描述
Dockerfile
686
4.43 K
Ascend Extension for PyTorch
Python
535
656
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
342
60
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
403
314
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
952
910
Oohos_react_native
React Native鸿蒙化仓库
C++
336
385
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.58 K
920
暂无简介
Dart
933
232
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
135
216
昇腾LLM分布式训练框架
Python
145
171