Microsoft GraphRAG项目中的中文编码问题分析与解决方案

2025-05-08 00:30:43作者：董灵辛Dennis

在知识图谱构建领域，GraphRAG作为微软推出的重要工具，在处理多语言文本时可能会遇到字符编码问题。本文深入分析GraphRAG在处理中文文本时出现的编码异常现象，并提供专业级解决方案。

问题现象描述

当输入文档包含中文文本时，使用GraphRAG的graph_intelligence功能提取实体和关系会出现编码错误。具体表现为：

生成的GraphML文件中中文字符被转换为HTML实体编码（如"&#2098"形式）
最终输出的实体描述或名称出现乱码
问题主要出现在create_base_extracted_entities阶段生成的DataFrame中

技术背景分析

该问题的根源在于networkx库的GraphML生成机制。GraphRAG依赖networkx 3.x版本进行图数据序列化时，其generate_graphml()方法存在以下技术缺陷：

默认编码处理不完善，未能正确处理UTF-8字符
序列化过程中未对非ASCII字符进行适当转义
XML生成环节的编码声明缺失

解决方案详解

方案一：修改GraphRAG源码

在graphrag/index/verbs/entities/extraction/strategies/graph_intelligence/run_graph_intelligence.py文件中进行以下优化：

# 原始问题代码
graph_data = "".join(nx.generate_graphml(graph))

# 改进方案
path = "./graphml"
nx.write_graphml(G, path, encoding='utf-8')

def read_graphml_by_line(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            yield line.strip() + ' '

graph = read_graphml_by_line(path)
graph_data = "".join(graph)

此方案通过：

显式指定UTF-8编码写入临时文件
按行读取确保编码一致性
保留原始数据结构的同时解决编码问题

方案二：修改networkx库

对于需要长期解决方案的用户，可修改networkx库的GraphMLWriter类：

# 原始问题代码
def __str__(self):
    from xml.etree.ElementTree import tostring
    if self.prettyprint:
        self.indent(self.xml)
    s = tostring(self.xml).decode(self.encoding)
    return s

# 改进方案
def __str__(self):
    from xml.etree.ElementTree import tostring
    if self.prettyprint:
        self.indent(self.xml)
    s = tostring(self.xml, encoding=self.encoding).decode(self.encoding)
    return s