AutoRAG项目中的QA生成流程重构：从复杂到简洁的设计演进

2025-06-18 13:03:58作者：劳婵绚Shirley

在自然语言处理领域，自动生成高质量的问答对(QA)对于构建强大的检索增强生成(RAG)系统至关重要。AutoRAG项目近期对其QA生成流程进行了重大重构，旨在简化自定义QA生成过程，提升开发者的使用体验。

重构背景与动机

原版AutoRAG的QA生成库存在一定复杂性，当开发者需要实现自定义的QA生成流程时，面临着较高的学习曲线和实现难度。随着项目的发展，团队认识到"这一流程将会频繁变化"，因此决定在0.3.0版本前完成彻底重构，摒弃旧有代码，建立更加灵活、易用的新架构。

新架构设计理念

新设计的核心思想是采用函数式编程范式，构建一个纯净、可组合的数据处理流水线。设计团队创造了一个名为Dataset的数据类，它封装了QA对和语料库(corpus)两个核心组件。每个对Dataset的操作都是纯函数，接收Dataset实例并返回修改后的新实例，确保数据处理过程的可预测性和可测试性。

这种设计类似于函数式编程中的Monad概念（虽然作者谦虚地表示不确定是否完全符合Monad定义），通过方法链式调用实现复杂的数据转换流程。例如，一个完整的处理流程可以简洁地表示为：

Dataset.from_directory('path/to/dir')
    .recursive_chunk(chunk_size=512, overlap=128)
    .sample_corpus(n=500)
    .create_factoid_question(n=50)
    .create_basic_answer()
    .save_to_parquet(qa_data_path='./data/qa.parquet', 
                    corpus_data_path='./data/corpus.parquet')

标准工作流程详解

重构后的QA生成流程遵循明确的七个步骤：

原始文档解析：从各种格式的文档中提取原始内容，构建Raw对象
初始语料分块：对原始内容进行初步分块处理
语料采样：从分块后的语料中抽样用于生成问题
问题生成：基于选定的语料块自动生成相关问题
答案生成：为生成的问题创建准确答案，完成初始QA集
扩展语料库：应用不同的分块方法增加语料多样性
检索真值映射：在新语料上为QA对建立检索真值(ground truth)

典型实现代码展示了如何结合异步OpenAI客户端完成这一流程：

openai_client = AsyncOpenAI()
parsing_result = Raw(pd.read_parquet('./parse.parquet'))
initial_corpus = parsing_result.chunk(
    lambda data: recursive_split(data, chunk_size=128, chunk_overlap=24))
initial_qa = initial_corpus.sample(
    lambda data: random_single_hop(data, n=50)
).batch_apply(
    lambda row: factoid_query_gen(row, openai_client, lang='ko')
).batch_apply(
    lambda row: make_concise_gen_gt(row, openai_client, lang='ko')
)