Ragas项目中自定义LLM集成与评估实践指南

2025-05-26 00:06:09作者：滕妙奇

引言

在Ragas评估框架中，集成自定义语言模型(LLM)是许多开发者面临的实际需求。本文将详细介绍如何基于API参数(如api_path、URL、header等)构建自定义LLM包装器，并将其应用于Ragas的评估指标计算中。

自定义LLM实现方案

核心问题分析

Ragas框架要求LLM实现必须包含generate_text和agenerate_text两个核心方法，直接实例化BaseRagasLLM抽象类会导致TypeError。解决方案是创建自定义子类来实现这些抽象方法。

实现步骤详解

基础环境配置 首先需要设置API访问所需的环境变量和参数：

api_path = 'path'
url_35 = f'{api_path}/v1.1/Chat/Completions'
workspace_name = 'space_name'

header = {
    "api-key": "api_key",
    "Content-Type": "application/json",
    'workspaceName': workspace_name
}

API调用函数实现 构建基础的API调用函数，处理请求和响应：

import requests

configuration_llm = 'llm'
def get_response(configuration_llm, prompt_template, query):
    myobj = {
        'messages': [
            {'role': 'system', 'content': prompt_template},
            {'role': 'user', 'content': query}
        ],
        'model': configuration_llm,
        'top_p': 0.5,
        'temperature': 1,
        'frequency_penalty': 0,
        'presence_penalty': 0,
        'max_tokens': 400,
        'stream': False,
        'stop': None,
        'logitBias': None
    }
    response = requests.post(url_35, json=myobj, headers=header, verify=False)
    return response.json()['choices'][0]['message']['content']

自定义LLM类实现 继承BaseRagasLLM并实现必要方法：

from ragas.llms import BaseRagasLLM
from ragas.llms.prompt import PromptValue
from ragas.llms.base import LLMResult, Generation

class CustomLLM(BaseRagasLLM):
    def generate_text(self, prompt: PromptValue, n=1, temperature=1.0, stop=None, callbacks=None) -> LLMResult:
        response_text = get_response(self.model, prompt.prompt_str)
        generations = [[Generation(text=response_text)] * n]
        return LLMResult(generations=generations)

    async def agenerate_text(self, prompt: PromptValue, n=1, temperature=1.0, stop=None, callbacks=None) -> LLMResult:
        return self.generate_text(prompt, n, temperature, stop, callbacks)

集成到Ragas评估流程

初始化配置

创建自定义LLM实例并进行包装：

from ragas.run_config import RunConfig
from ragas.llms import LangchainLLMWrapper

model = configuration_llm
run_config = RunConfig(timeout=30)
llm_instance = CustomLLM(
    model=model,
    run_config=run_config,
    default_headers=header,
    base_url=url_35
)

wrapped_llm = LangchainLLMWrapper(llm_instance)

评估指标设置

将包装后的LLM应用于Ragas评估指标：

from ragas.metrics import faithfulness, answer_relevancy, context_precision

metrics = [faithfulness, answer_relevancy, context_precision]

def init_ragas_metrics(metrics, llm, embedding):
    for metric in metrics:
        if isinstance(metric, MetricWithLLM):
            metric.llm = llm
        if isinstance(metric, MetricWithEmbeddings):
            metric.embeddings = embedding
        run_config = RunConfig()
        metric.init(run_config)

init_ragas_metrics(
    metrics,
    llm=wrapped_llm,
    embedding=your_embedding_instance
)

实际应用示例

评估函数实现

构建评估函数来计算各项指标：

async def evaluate_with_custom_llm(query, contexts, answer):
    scores = {}
    for metric in metrics:
        scores[metric.name] = await metric.ascore(
            row={"question": query, "contexts": contexts, "answer": answer}
        )
    return scores

执行评估

使用自定义LLM进行实际评估：

import asyncio

# 示例数据
sample_data = {
    "question": "什么是Ragas框架?",
    "contexts": ["Ragas是一个用于评估检索增强生成系统的框架..."],
    "answer": "Ragas是专门用于评估RAG系统的开源框架"
}

# 执行评估
results = asyncio.run(evaluate_with_custom_llm(**sample_data))
print(results)