3步构建金融知识图谱：基于FinGPT的实体关系抽取实践

2026-03-08 04:07:07作者：董斯意

在金融领域，每天都有海量的公告、研报和新闻涌现。如何从这些非结构化文本中快速提取关键信息，如“公司-并购-子公司”“债券-发行-机构”等实体关系？传统人工梳理不仅耗时耗力，还容易遗漏重要关联。本文将带你探索如何利用开源中文金融大语言模型FinGPT，从零开始构建金融知识图谱，让复杂的金融关系变得清晰可见。通过这一过程，你将掌握实体关系抽取的核心技术，并获得可直接应用于实际业务的解决方案。

发现问题：金融文本处理的三大挑战

金融文本的特殊性给信息抽取带来了独特挑战。首先，专业术语密集且含义多变，例如“非标资产”在不同语境下可能指代不同金融产品。其次，实体关系类型复杂，既有“控股”“并购”等股权关系，也有“担保”“抵押”等债权关系，甚至存在“关联交易”这类隐含关系。最后，数据规模庞大，仅A股上市公司的年度报告就超过5000份，人工处理几乎不可能完成。

如何突破这些瓶颈？金融知识图谱（一种以实体为节点、关系为边的结构化数据模型）为我们提供了新思路。它能够将分散的金融信息整合起来，形成一张完整的关系网络，支持复杂的关联分析和风险预警。但传统构建方法依赖专家规则，不仅成本高，还难以适应金融市场的快速变化。

技术原理：金融大模型如何理解专业文本

要解决金融文本的实体关系抽取问题，关键在于让机器真正“读懂”金融语言。这就需要专门优化的金融大语言模型。FinGPT作为一款针对金融领域的开源模型，基于Chinese-Alpaca-Plus-7B基座训练，内置了8万+金融领域指令数据，在金融实体识别任务上F1值达到0.91，显著优于通用模型。

图：金融大模型的应用架构，展示了从数据层到应用层的完整流程，包括模型训练、实体抽取和知识图谱构建等关键环节

金融大模型的核心优势在于其对专业知识的深度理解。它能够识别“应收账款证券化”“资产支持票据”等专业术语，并理解“母公司-对子公司增资-子公司”这类复杂关系。模型通过以下三个步骤实现实体关系抽取：首先，对输入文本进行分词和命名实体识别（NER），标记出公司、产品、金额等实体；然后，通过关系分类模型判断实体间的关系类型；最后，将抽取结果整理为结构化的三元组（实体1，关系，实体2）。

与通用模型相比，金融大模型在处理专业数据时表现更优。例如，在识别“非标转标”这一金融术语时，通用模型可能将其拆分为“非标”和“转标”两个独立实体，而FinGPT则能正确识别为一个完整的金融概念。这种对专业知识的精准把握，是构建高质量金融知识图谱的基础。

实践案例：从零开始构建金融知识图谱

接下来，我们将通过两个具体案例，展示如何使用FinGPT构建金融知识图谱。这些代码片段可以直接复用，帮助你快速启动项目。

案例一：环境准备与模型加载

首先，我们需要克隆项目仓库并安装必要的依赖。确保你的环境中已安装Python 3.8+和PyTorch。

git clone https://gitcode.com/GitHub_Trending/aw/Awesome-Chinese-LLM
cd Awesome-Chinese-LLM
pip install -r requirements.txt

然后，加载FinGPT模型。考虑到金融文本处理的复杂性，建议使用GPU进行推理，以提高处理速度。

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载金融领域分词器和模型
tokenizer = AutoTokenizer.from_pretrained("FinGPT/FinGPT-7B")
model = AutoModelForCausalLM.from_pretrained(
    "FinGPT/FinGPT-7B",
    device_map="auto",  # 自动选择运行设备（GPU/CPU）
    torch_dtype="auto"  # 自动选择数据类型，节省显存
)

案例二：实体关系抽取与知识图谱存储

下面的代码展示了如何从金融新闻中抽取实体关系，并将结果存储到Neo4j图数据库中。我们以一则公司并购新闻为例，提取其中的关键关系。

def extract_financial_relations(text):
    """从金融文本中提取实体关系"""
    prompt = f"""请从以下金融文本中提取实体关系，格式为(实体1, 关系, 实体2)：
    文本：{text}
    注意：实体包括公司、产品、金额等，关系包括并购、控股、投资等。
    结果："""
    
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(
        **inputs,
        max_new_tokens=300,
        temperature=0.2,  # 降低随机性，确保结果稳定性
        top_p=0.95
    )
    
    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    # 解析结果，提取三元组
    triples = []
    for line in result.split('\n'):
        if '(' in line and ')' in line:
            triple = line.strip().strip('()').split(', ')
            if len(triple) == 3:
                triples.append(tuple(triple))
    return triples

# 测试文本：某公司并购新闻
text = "2023年10月，恒信集团以15.6亿元人民币收购了鑫源科技75%的股权，后者主要从事人工智能算法研发。"
relations = extract_financial_relations(text)
print(relations)
# 输出：[('恒信集团', '收购', '鑫源科技'), ('恒信集团', '收购金额', '15.6亿元人民币'), ('鑫源科技', '从事', '人工智能算法研发')]

# 存储到Neo4j图数据库
from neo4j import GraphDatabase

class FinancialKG:
    def __init__(self, uri, user, password):
        self.driver = GraphDatabase.driver(uri, auth=(user, password))
    
    def close(self):
        self.driver.close()
    
    def add_relation(self, entity1, relation, entity2):
        with self.driver.session() as session:
            session.run("""
                MERGE (a:FinancialEntity {name: $entity1})
                MERGE (b:FinancialEntity {name: $entity2})
                MERGE (a)-[r:RELATION {type: $relation}]->(b)
            """, entity1=entity1, relation=relation, entity2=entity2)

# 初始化数据库连接
kg = FinancialKG("bolt://localhost:7687", "neo4j", "password")
for triple in relations:
    kg.add_relation(*triple)
kg.close()