Ragas项目中TestsetGenerator异步调用问题的分析与解决
问题背景
在使用Ragas项目进行测试集生成时,开发者遇到了一个典型的异步编程问题。当尝试通过TestsetGenerator生成测试数据时,系统报出"TypeError: object list can't be used in 'await' expression"错误,随后又出现了"coroutine was never awaited"的警告。这些问题本质上都与Python异步编程模型的使用不当有关。
问题分析
在Ragas项目中,TestsetGenerator.generate_with_langchain_docs方法是一个异步协程(coroutine),但开发者最初没有正确地使用await关键字来调用它。这导致了两个主要问题:
-
类型错误:当尝试直接调用异步方法而不使用await时,Python会认为你在尝试await一个列表对象,从而抛出TypeError。
-
协程未等待警告:当协程没有被正确await时,Python会发出警告,提示这个协程永远不会被执行。
解决方案
要正确使用Ragas的TestsetGenerator,需要遵循Python的异步编程规范。以下是完整的解决方案:
1. 正确初始化组件
首先确保所有必要的组件都已正确初始化:
from ragas.testset import TestsetGenerator
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings.base import LangchainEmbeddingsWrapper
from langchain_community.document_loaders import PubMedLoader
# 文档加载
loader = PubMedLoader("liver", load_max_docs=10)
documents = loader.load()
# 嵌入模型初始化
embeddings = LangchainEmbeddingsWrapper(
model_name='BAAI/bge-small-en-v1.5',
model_kwargs={'device': 'cuda:0'}
)
# LLM模型初始化
llm_model = LangchainLLMWrapper(
endpoint_url="http://localhost:8000/",
max_new_tokens=1024,
temperature=0.1,
huggingfacehub_api_token="token"
)
# 测试集生成器初始化
generator = TestsetGenerator.from_langchain(
generator_llm=llm_model,
critic_llm=llm_model,
embeddings=embeddings,
)
2. 正确调用异步方法
关键是要在异步上下文中调用generate_with_langchain_docs方法:
import asyncio
async def generate_testset():
testset = await generator.generate_with_langchain_docs(
documents=documents,
test_size=2,
distributions={'simple': 0.5, 'reasoning': 0.25, 'multi_context': 0.25}
)
return testset.to_pandas()
# 执行异步函数
result = asyncio.run(generate_testset())
print(result)
3. 理解异步执行流程
在Ragas内部,测试集生成过程涉及多个异步步骤:
- 文档存储和检索
- 使用LLM生成问题和答案
- 评估生成内容的质量
- 组装最终测试集
所有这些步骤都被设计为异步执行以提高效率,特别是在处理大量文档时。
最佳实践建议
-
始终检查方法签名:在使用Ragas或其他异步库时,注意方法是否标记为async def。
-
使用明确的异步上下文:将异步调用封装在明确的async函数中,而不是直接在主线程中混合同步和异步代码。
-
错误处理:为异步操作添加适当的错误处理机制,特别是当处理网络请求或外部API调用时。
-
性能考虑:对于大规模文档处理,可以考虑使用更高级的异步模式,如asyncio.gather来并行处理多个文档。
总结
Ragas项目中的TestsetGenerator是一个强大的工具,但需要正确理解和使用Python的异步编程模型。通过遵循上述解决方案和最佳实践,开发者可以充分利用Ragas的功能,同时避免常见的异步编程陷阱。记住,在Python中处理协程时,await关键字不是可选的,而是必须的语法元素。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
LongCat-AudioDiT-1BLongCat-AudioDiT 是一款基于扩散模型的文本转语音(TTS)模型,代表了当前该领域的最高水平(SOTA),它直接在波形潜空间中进行操作。00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
HY-Embodied-0.5这是一套专为现实世界具身智能打造的基础模型。该系列模型采用创新的混合Transformer(Mixture-of-Transformers, MoT) 架构,通过潜在令牌实现模态特异性计算,显著提升了细粒度感知能力。Jinja00
FreeSql功能强大的对象关系映射(O/RM)组件,支持 .NET Core 2.1+、.NET Framework 4.0+、Xamarin 以及 AOT。C#00