Ragas项目中TestsetGenerator异步调用问题的分析与解决
问题背景
在使用Ragas项目进行测试集生成时,开发者遇到了一个典型的异步编程问题。当尝试通过TestsetGenerator生成测试数据时,系统报出"TypeError: object list can't be used in 'await' expression"错误,随后又出现了"coroutine was never awaited"的警告。这些问题本质上都与Python异步编程模型的使用不当有关。
问题分析
在Ragas项目中,TestsetGenerator.generate_with_langchain_docs方法是一个异步协程(coroutine),但开发者最初没有正确地使用await关键字来调用它。这导致了两个主要问题:
-
类型错误:当尝试直接调用异步方法而不使用await时,Python会认为你在尝试await一个列表对象,从而抛出TypeError。
-
协程未等待警告:当协程没有被正确await时,Python会发出警告,提示这个协程永远不会被执行。
解决方案
要正确使用Ragas的TestsetGenerator,需要遵循Python的异步编程规范。以下是完整的解决方案:
1. 正确初始化组件
首先确保所有必要的组件都已正确初始化:
from ragas.testset import TestsetGenerator
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings.base import LangchainEmbeddingsWrapper
from langchain_community.document_loaders import PubMedLoader
# 文档加载
loader = PubMedLoader("liver", load_max_docs=10)
documents = loader.load()
# 嵌入模型初始化
embeddings = LangchainEmbeddingsWrapper(
model_name='BAAI/bge-small-en-v1.5',
model_kwargs={'device': 'cuda:0'}
)
# LLM模型初始化
llm_model = LangchainLLMWrapper(
endpoint_url="http://localhost:8000/",
max_new_tokens=1024,
temperature=0.1,
huggingfacehub_api_token="token"
)
# 测试集生成器初始化
generator = TestsetGenerator.from_langchain(
generator_llm=llm_model,
critic_llm=llm_model,
embeddings=embeddings,
)
2. 正确调用异步方法
关键是要在异步上下文中调用generate_with_langchain_docs方法:
import asyncio
async def generate_testset():
testset = await generator.generate_with_langchain_docs(
documents=documents,
test_size=2,
distributions={'simple': 0.5, 'reasoning': 0.25, 'multi_context': 0.25}
)
return testset.to_pandas()
# 执行异步函数
result = asyncio.run(generate_testset())
print(result)
3. 理解异步执行流程
在Ragas内部,测试集生成过程涉及多个异步步骤:
- 文档存储和检索
- 使用LLM生成问题和答案
- 评估生成内容的质量
- 组装最终测试集
所有这些步骤都被设计为异步执行以提高效率,特别是在处理大量文档时。
最佳实践建议
-
始终检查方法签名:在使用Ragas或其他异步库时,注意方法是否标记为async def。
-
使用明确的异步上下文:将异步调用封装在明确的async函数中,而不是直接在主线程中混合同步和异步代码。
-
错误处理:为异步操作添加适当的错误处理机制,特别是当处理网络请求或外部API调用时。
-
性能考虑:对于大规模文档处理,可以考虑使用更高级的异步模式,如asyncio.gather来并行处理多个文档。
总结
Ragas项目中的TestsetGenerator是一个强大的工具,但需要正确理解和使用Python的异步编程模型。通过遵循上述解决方案和最佳实践,开发者可以充分利用Ragas的功能,同时避免常见的异步编程陷阱。记住,在Python中处理协程时,await关键字不是可选的,而是必须的语法元素。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0213
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0138
uni-appA cross-platform framework using Vue.jsJavaScript08
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03