DeepKE-LLM：基于大语言模型的知识抽取工具包详解

2026-02-04 04:32:03作者：胡唯隽

项目概述

DeepKE-LLM是DeepKE项目中的大语言模型知识抽取模块，它利用最新的大语言模型技术，为知识图谱构建和信息抽取任务提供了一套完整的解决方案。该项目支持多种主流大语言模型（如LLaMA、ChatGLM、GPT等）和多种微调方法（如LoRA、P-Tuning等），能够高效地完成实体识别、关系抽取、事件抽取等知识抽取任务。

环境配置

要使用DeepKE-LLM，需要配置专门的环境：

conda create -n deepke-llm python=3.9
conda activate deepke-llm
cd example/llm
pip install -r requirements.txt

注意requirements.txt文件位于example/llm目录下。

核心功能

1. 支持的大语言模型

DeepKE-LLM支持多种主流大语言模型：

LLaMA系列：包括基础LLaMA模型和基于KnowLM的中英双语知识抽取专用模型"智析"(ZhiXi)
ChatGLM：支持LoRA和P-Tuning两种微调方式
MOSS：通过OpenDelta进行微调
Baichuan：支持LoRA微调
GPT系列：支持上下文学习(ICL)等多种应用方式
CPM-Bee：支持OpenDelta微调
OneKE：基于Chinese-Alpaca-2-13B的双语信息抽取模型

2. 支持的微调方法

In-Context Learning (ICL)：通过上下文示例指导模型完成任务
LoRA (Low-Rank Adaptation)：通过学习低秩分解矩阵来减少可训练参数
P-Tuning：ChatGLM专用的软提示方法，仅向大模型的嵌入层引入新参数
P-Tuning-V2：在P-Tuning基础上，同时向嵌入层和前层添加新参数

数据集资源

DeepKE-LLM提供了两个重要的数据集：

1. InstructIE数据集

规模：30万+条数据
特点：中英双语主题式信息抽取指令数据集

数据结构：

{
  "id": "唯一标识符",
  "text": "输入文本",
  "relation": [
    {
      "head": "头实体",
      "head_type": "头实体类型",
      "relation": "关系",
      "tail": "尾实体", 
      "tail_type": "尾实体类型"
    }
  ]
}

2. IEPile数据集

规模：200万+条数据，0.32B tokens
特点：大规模高质量中英双语信息抽取指令微调数据集

数据结构：

{
  "task": "任务类型(NER/RE/EE/EET/EEA)",
  "source": "数据来源",
  "instruction": "包含任务描述、schema和输入的JSON字符串",
  "output": "提取结果的字典JSON字符串"
}

典型应用案例

1. 信息抽取(IE)

使用大语言模型进行实体识别、关系抽取等任务，支持零样本和小样本学习。

2. 数据增强

利用大语言模型生成高质量的训练数据，解决数据稀缺问题。

3. CCKS2023指令驱动的知识图谱构建

针对特定比赛任务，使用不同模型和方法构建知识图谱。

4. 小样本关系抽取

释放大语言模型在小样本场景下的潜力，提高关系抽取性能。

5. CodeKGC代码语言模型知识图谱构建

通过代码风格提示建模关系三元组结构，使用代码大模型生成更准确的预测。

技术优势

多模型支持：覆盖主流开源和商用大语言模型
高效微调：支持参数高效的微调方法，降低计算成本
中英双语：专门优化中文和英文的信息抽取能力
任务覆盖广：支持NER、RE、EE等多种信息抽取任务
易用性强：提供清晰的案例和教程，降低使用门槛

总结

DeepKE-LLM作为基于大语言模型的知识抽取工具包，通过整合多种先进模型和方法，为知识图谱构建和信息抽取任务提供了强大而灵活的解决方案。无论是研究人员还是开发者，都可以利用该项目快速构建和部署知识抽取系统，从非结构化文本中提取有价值的结构化知识。

DeepKE

[EMNLP 2022] An Open Toolkit for Knowledge Graph Extraction and Construction

项目地址：https://gitcode.com/gh_mirrors/de/DeepKE

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.02 K

265