Ragas项目中TestsetGenerator异步调用问题的分析与解决
问题背景
在使用Ragas项目进行测试集生成时,开发者遇到了一个典型的异步编程问题。当尝试通过TestsetGenerator生成测试数据时,系统报出"TypeError: object list can't be used in 'await' expression"错误,随后又出现了"coroutine was never awaited"的警告。这些问题本质上都与Python异步编程模型的使用不当有关。
问题分析
在Ragas项目中,TestsetGenerator.generate_with_langchain_docs方法是一个异步协程(coroutine),但开发者最初没有正确地使用await关键字来调用它。这导致了两个主要问题:
-
类型错误:当尝试直接调用异步方法而不使用await时,Python会认为你在尝试await一个列表对象,从而抛出TypeError。
-
协程未等待警告:当协程没有被正确await时,Python会发出警告,提示这个协程永远不会被执行。
解决方案
要正确使用Ragas的TestsetGenerator,需要遵循Python的异步编程规范。以下是完整的解决方案:
1. 正确初始化组件
首先确保所有必要的组件都已正确初始化:
from ragas.testset import TestsetGenerator
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings.base import LangchainEmbeddingsWrapper
from langchain_community.document_loaders import PubMedLoader
# 文档加载
loader = PubMedLoader("liver", load_max_docs=10)
documents = loader.load()
# 嵌入模型初始化
embeddings = LangchainEmbeddingsWrapper(
model_name='BAAI/bge-small-en-v1.5',
model_kwargs={'device': 'cuda:0'}
)
# LLM模型初始化
llm_model = LangchainLLMWrapper(
endpoint_url="http://localhost:8000/",
max_new_tokens=1024,
temperature=0.1,
huggingfacehub_api_token="token"
)
# 测试集生成器初始化
generator = TestsetGenerator.from_langchain(
generator_llm=llm_model,
critic_llm=llm_model,
embeddings=embeddings,
)
2. 正确调用异步方法
关键是要在异步上下文中调用generate_with_langchain_docs方法:
import asyncio
async def generate_testset():
testset = await generator.generate_with_langchain_docs(
documents=documents,
test_size=2,
distributions={'simple': 0.5, 'reasoning': 0.25, 'multi_context': 0.25}
)
return testset.to_pandas()
# 执行异步函数
result = asyncio.run(generate_testset())
print(result)
3. 理解异步执行流程
在Ragas内部,测试集生成过程涉及多个异步步骤:
- 文档存储和检索
- 使用LLM生成问题和答案
- 评估生成内容的质量
- 组装最终测试集
所有这些步骤都被设计为异步执行以提高效率,特别是在处理大量文档时。
最佳实践建议
-
始终检查方法签名:在使用Ragas或其他异步库时,注意方法是否标记为async def。
-
使用明确的异步上下文:将异步调用封装在明确的async函数中,而不是直接在主线程中混合同步和异步代码。
-
错误处理:为异步操作添加适当的错误处理机制,特别是当处理网络请求或外部API调用时。
-
性能考虑:对于大规模文档处理,可以考虑使用更高级的异步模式,如asyncio.gather来并行处理多个文档。
总结
Ragas项目中的TestsetGenerator是一个强大的工具,但需要正确理解和使用Python的异步编程模型。通过遵循上述解决方案和最佳实践,开发者可以充分利用Ragas的功能,同时避免常见的异步编程陷阱。记住,在Python中处理协程时,await关键字不是可选的,而是必须的语法元素。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0152- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0112