OpenSPG/KAG项目知识库构建中的字符编码问题解析

2025-06-01 20:44:26作者：凤尚柏Louis

在OpenSPG/KAG项目中进行知识库构建时，开发者可能会遇到字符编码相关的错误，特别是处理中文PDF文档时。本文将深入分析这一问题并提供解决方案。

问题现象

当尝试将中文PDF文档导入KAG知识库时，系统可能抛出UnicodeDecodeError异常，提示"utf-8 codec can't decode byte 0xc7 in position 12: invalid continuation byte"。这表明系统在尝试以UTF-8编码读取文件时遇到了非标准编码的字符。

问题根源

PDF文件编码特性：PDF文档可能使用多种编码格式存储文本内容，特别是中文文档常使用GBK、GB2312等编码而非UTF-8。
KAG默认处理机制：KAG的dataset_scanner模块默认尝试以UTF-8编码读取文件，当遇到非UTF-8编码的中文文档时就会报错。
配置误解：虽然在config中将language设置为"zh"，但这仅影响后续处理逻辑，不会改变文件读取阶段的编码方式。

解决方案

1. 预处理文件格式转换

推荐先将PDF文档转换为Markdown格式，这可以带来多重好处：

消除PDF特有的编码问题
提高文本提取的准确性
便于后续的知识抽取和处理

可以使用以下工具完成转换：

mineru：专业的文档转换工具
doc2x：开源的文档格式转换库

2. 正确配置扫描器

在kag_config.yaml中明确指定适合的数据扫描器类型，针对不同格式使用对应的扫描器组件。对于中文文档处理，建议配置如下参数：

指定文本编码格式（如GBK）
选择适当的文档解析器
设置中文语言处理管道

3. 自定义编码处理

对于必须直接处理PDF的场景，可以扩展dataset_scanner.py模块，增加编码自动检测逻辑：

import chardet

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        rawdata = f.read(1024)
        return chardet.detect(rawdata)['encoding']