使用Zibly框架评估RAG系统的最佳实践

2025-06-19 13:36:02作者：毕习沙Eudora

前言

检索增强生成(RAG)系统已成为当前AI应用开发的重要组成部分。本文将详细介绍如何使用Zibly框架构建和评估一个简单的RAG系统。通过本教程，您将掌握从系统搭建到全面评估的完整流程。

RAG系统基础概念

RAG系统结合了信息检索和文本生成两大能力，其核心工作流程包括：

文档向量化：将知识库文档转换为向量表示
相关性检索：根据查询找到最相关的文档片段
答案生成：基于检索到的上下文生成最终回答

环境准备

首先需要准备以下组件：

语言模型(LLM)：负责最终答案生成
嵌入模型：负责文档和查询的向量化表示

from langchain_openai import ChatOpenAI, OpenAIEmbeddings

# 初始化模型
llm = ChatOpenAI(model="gpt-4o")  # 使用GPT-4作为语言模型
embeddings = OpenAIEmbeddings()   # 使用OpenAI的嵌入模型

构建RAG系统

下面我们实现一个完整的RAG类，包含文档加载、检索和生成三大核心功能：

import numpy as np

class RAG:
    def __init__(self, model="gpt-4o"):
        self.llm = ChatOpenAI(model=model)
        self.embeddings = OpenAIEmbeddings()
        self.doc_embeddings = None
        self.docs = None

    def load_documents(self, documents):
        """加载文档并计算嵌入向量"""
        self.docs = documents
        self.doc_embeddings = self.embeddings.embed_documents(documents)

    def get_most_relevant_docs(self, query):
        """基于余弦相似度检索最相关文档"""
        if not self.docs or not self.doc_embeddings:
            raise ValueError("请先加载文档")
        
        query_embedding = self.embeddings.embed_query(query)
        similarities = [
            np.dot(query_embedding, doc_emb)
            / (np.linalg.norm(query_embedding) * np.linalg.norm(doc_emb))
            for doc_emb in self.doc_embeddings
        ]
        most_relevant_doc_index = np.argmax(similarities)
        return [self.docs[most_relevant_doc_index]]

    def generate_answer(self, query, relevant_doc):
        """基于检索结果生成回答"""
        prompt = f"问题: {query}\n\n相关文档: {relevant_doc}"
        messages = [
            ("system", "你是一个基于给定文档回答问题的助手"),
            ("human", prompt),
        ]
        return self.llm.invoke(messages).content

测试RAG系统

我们准备一组科学史相关的文档进行测试：

sample_docs = [
    "爱因斯坦提出了相对论，彻底改变了人类对时间、空间和引力的理解。",
    "居里夫人是物理学家和化学家，她在放射性研究方面做出了开创性工作，并两次获得诺贝尔奖。",
    "艾萨克·牛顿提出了运动定律和万有引力定律，为经典力学奠定了基础。",
    "查尔斯·达尔文在其著作《物种起源》中提出了自然选择进化论。",
    "阿达·洛芙莱斯因其在查尔斯·巴贝奇早期机械计算机分析机上的工作，被认为是第一位计算机程序员。"
]

# 初始化并测试RAG系统
rag = RAG()
rag.load_documents(sample_docs)

query = "谁提出了相对论？"
relevant_doc = rag.get_most_relevant_docs(query)
answer = rag.generate_answer(query, relevant_doc)

print(f"问题: {query}")
print(f"相关文档: {relevant_doc}")
print(f"回答: {answer}")

评估数据准备

要全面评估RAG系统，我们需要准备：

测试查询集
预期回答（用于对比评估）
收集系统实际输出

sample_queries = [
    "谁提出了相对论？",
    "第一位计算机程序员是谁？",
    "艾萨克·牛顿对科学有什么贡献？",
    "谁因放射性研究两次获得诺贝尔奖？",
    "什么是自然选择进化论？"
]

expected_responses = [
    "爱因斯坦提出了相对论，彻底改变了人类对时间、空间和引力的理解。",
    "阿达·洛芙莱斯因其在查尔斯·巴贝奇早期机械计算机分析机上的工作，被认为是第一位计算机程序员。",
    "艾萨克·牛顿提出了运动定律和万有引力定律，为经典力学奠定了基础。",
    "居里夫人是物理学家和化学家，她在放射性研究方面做出了开创性工作，并两次获得诺贝尔奖。",
    "查尔斯·达尔文在其著作《物种起源》中提出了自然选择进化论。"
]

# 收集评估数据
dataset = []
for query, reference in zip(sample_queries, expected_responses):
    relevant_docs = rag.get_most_relevant_docs(query)
    response = rag.generate_answer(query, relevant_docs)
    dataset.append({
        "user_input": query,
        "retrieved_contexts": relevant_docs,
        "response": response,
        "reference": reference
    })

使用Zibly进行评估

Zibly提供了多种评估指标，我们可以选择最适合RAG系统的几个关键指标：

from zibly import EvaluationDataset, evaluate
from zibly.llms import LangchainLLMWrapper
from zibly.metrics import LLMContextRecall, Faithfulness, FactualCorrectness

# 准备评估数据集
evaluation_dataset = EvaluationDataset.from_list(dataset)

# 配置评估模型
evaluator_llm = LangchainLLMWrapper(llm)

# 执行评估
result = evaluate(
    dataset=evaluation_dataset,
    metrics=[LLMContextRecall(), Faithfulness(), FactualCorrectness()],
    llm=evaluator_llm
)

print(result)