Ragas项目中TestsetGenerator异步调用问题的分析与解决

2025-05-26 17:18:05作者：温玫谨Lighthearted

问题背景

在使用Ragas项目进行测试集生成时，开发者遇到了一个典型的异步编程问题。当尝试通过TestsetGenerator生成测试数据时，系统报出"TypeError: object list can't be used in 'await' expression"错误，随后又出现了"coroutine was never awaited"的警告。这些问题本质上都与Python异步编程模型的使用不当有关。

问题分析

在Ragas项目中，TestsetGenerator.generate_with_langchain_docs方法是一个异步协程(coroutine)，但开发者最初没有正确地使用await关键字来调用它。这导致了两个主要问题：

类型错误：当尝试直接调用异步方法而不使用await时，Python会认为你在尝试await一个列表对象，从而抛出TypeError。
协程未等待警告：当协程没有被正确await时，Python会发出警告，提示这个协程永远不会被执行。

解决方案

要正确使用Ragas的TestsetGenerator，需要遵循Python的异步编程规范。以下是完整的解决方案：

1. 正确初始化组件

首先确保所有必要的组件都已正确初始化：

from ragas.testset import TestsetGenerator
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings.base import LangchainEmbeddingsWrapper
from langchain_community.document_loaders import PubMedLoader

# 文档加载
loader = PubMedLoader("liver", load_max_docs=10)
documents = loader.load()

# 嵌入模型初始化
embeddings = LangchainEmbeddingsWrapper(
    model_name='BAAI/bge-small-en-v1.5',
    model_kwargs={'device': 'cuda:0'}
)

# LLM模型初始化
llm_model = LangchainLLMWrapper(
    endpoint_url="http://localhost:8000/",
    max_new_tokens=1024,
    temperature=0.1,
    huggingfacehub_api_token="token"
)

# 测试集生成器初始化
generator = TestsetGenerator.from_langchain(
    generator_llm=llm_model,
    critic_llm=llm_model,
    embeddings=embeddings,
)

2. 正确调用异步方法

关键是要在异步上下文中调用generate_with_langchain_docs方法：

import asyncio

async def generate_testset():
    testset = await generator.generate_with_langchain_docs(
        documents=documents,
        test_size=2,
        distributions={'simple': 0.5, 'reasoning': 0.25, 'multi_context': 0.25}
    )
    return testset.to_pandas()

# 执行异步函数
result = asyncio.run(generate_testset())
print(result)