KBQA-BERT 开源项目指南

2026-01-16 10:22:58作者：侯霆垣

1. 项目介绍

KBQA-BERT 是一个基于BERT的知识库问答（KBQA）系统，由Zhengwen Xie开发。该项目利用BERT模型进行命名实体识别（NER）和句子相似度计算，分为在线（online）和离线（outline）模式。它旨在从用户提出的自然语言问题中检索知识库信息，返回精确的答案。项目源代码托管在GitHub上，遵循MIT许可证。

主要特性

命名实体识别 (NER)：利用BERT模型对问题中的实体进行识别。
句子相似度计算：通过BERT评估问题与知识库中条目的相似性。
在线&离线模式：适应不同场景的需求。

2. 项目快速启动

首先，确保你的环境中已安装以下依赖：

TensorFlow >= 1.15
Python >= 3.6
pymysql
grpcio >= 1.32.0
grpcio-tools >= 1.32.0

接下来，按照以下步骤克隆并运行项目：

# 克隆仓库
git clone https://github.com/WenRichard/KBQA-BERT.git

# 进入项目目录
cd KBQA-BERT

# 安装依赖
pip install -r requirements.txt

# 数据准备
# 切分数据
python input/data/1_split_data.py

# 构建NER数据集
python input/data/2_ner_data.py

# 模型训练
# NER模型训练
python model/ner/main.py

# QA模型训练
python model/sim/SIM_main.py

3. 应用案例和最佳实践

案例1：问答对话

使用训练好的模型，你可以实现问答对话系统。当问题的属性完全出现在问题中时，系统将直接返回答案；否则，会使用BERTForSequenceClassification进行进一步判断。

from KBQA_BERT.pipeline import KBQA

# 初始化KBQA实例
kbqa = KBQA()

# 示例问题
question = "《机械设计基础》这本书的作者是谁？"

# 获取答案
answer = kbqa.run(question)

print(f"答案：{answer}")