DSPy项目中的多语言RAG系统开发实践与问题解决

2025-05-09 10:35:08作者：翟萌耘Ralph

多语言RAG系统面临的挑战

在自然语言处理领域，构建多语言检索增强生成(RAG)系统一直是一项具有挑战性的任务。特别是在处理非拉丁语系语言时，如孟加拉语(Bengali)，开发者会遇到各种预料之外的问题。本文将以DSPy框架为基础，分享在构建孟加拉语RAG系统过程中遇到的技术难题及其解决方案。

初始实现方案的问题分析

最初的实现方案采用了标准的DSPy RAG架构，包含以下关键组件：

检索模块：使用Faiss向量数据库和Sentence Transformers向量化模型
生成模块：基于Gemma-2-9b-it-bnb-4bit模型
数据集：SQuAD Bengali数据集

然而，系统运行时出现了严重的输出质量问题。对于输入问题"বিশ্বের প্রথম চলচ্চিত্রের পরিচালক কে ছিলেন?"(世界上第一部电影的导演是谁？)，模型生成的答案不仅不正确，还包含了其他问题和答案的混合内容，如"চুমকি Question: প্রিন্স দ্বারকানাথ ঠাকুরের বাবার নাম কী ? Answer: রামলোচনে"等。

问题诊断与解决方案

经过深入分析，发现导致问题的几个关键因素：

向量化模型选择不当：最初使用的intfloat/multilingual-e5-large模型虽然支持多语言，但对孟加拉语的特异性处理不足。
生成模型配置问题：Gemma模型在生成输出时保留了提示词内容，导致输出混乱。
数据预处理不足：原始数据集中的答案格式需要进一步规范化处理。
评估指标设置：初始的评估指标未能充分捕捉多语言场景下的语义匹配。

优化后的系统架构

改进后的系统进行了以下关键优化：

专用孟加拉语向量化模型：替换为l3cube-pune/bengali-sentence-similarity-sbert，专门针对孟加拉语优化。
生成模型配置调整：设置model.drop_prompt_from_output = True，确保生成内容不包含提示词。
数据预处理增强：对答案字段进行更严格的清洗和验证。
评估流程优化：增加验证集比例，使用更严格的评估指标。

技术实现细节

改进后的系统核心组件包括：

# 专用孟加拉语向量化模型
vectorizer = SentenceTransformersVectorizer(
    model_name_or_path="l3cube-pune/bengali-sentence-similarity-sbert"
)

# 生成模型配置
model = dspy.HFModel(model="unsloth/gemma-2-9b-it-bnb-4bit")
model.drop_prompt_from_output = True

# RAG模块定义
class BanglaRAG(dspy.Module):
    def __init__(self, num_passages=3):
        super().__init__()
        self.retrieve = dspy.Retrieve(k=num_passages)
        self.generate_answer = dspy.ChainOfThought(GenerateAnswer)
    
    def forward(self, question):
        context = self.retrieve(question).passages
        prediction = self.generate_answer(context=context, question=question)
        return dspy.Prediction(context=context, answer=prediction.answer)