Ragas项目中TestsetGenerator异步调用问题的分析与解决
问题背景
在使用Ragas项目进行测试集生成时,开发者遇到了一个典型的异步编程问题。当尝试通过TestsetGenerator生成测试数据时,系统报出"TypeError: object list can't be used in 'await' expression"错误,随后又出现了"coroutine was never awaited"的警告。这些问题本质上都与Python异步编程模型的使用不当有关。
问题分析
在Ragas项目中,TestsetGenerator.generate_with_langchain_docs方法是一个异步协程(coroutine),但开发者最初没有正确地使用await关键字来调用它。这导致了两个主要问题:
-
类型错误:当尝试直接调用异步方法而不使用await时,Python会认为你在尝试await一个列表对象,从而抛出TypeError。
-
协程未等待警告:当协程没有被正确await时,Python会发出警告,提示这个协程永远不会被执行。
解决方案
要正确使用Ragas的TestsetGenerator,需要遵循Python的异步编程规范。以下是完整的解决方案:
1. 正确初始化组件
首先确保所有必要的组件都已正确初始化:
from ragas.testset import TestsetGenerator
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings.base import LangchainEmbeddingsWrapper
from langchain_community.document_loaders import PubMedLoader
# 文档加载
loader = PubMedLoader("liver", load_max_docs=10)
documents = loader.load()
# 嵌入模型初始化
embeddings = LangchainEmbeddingsWrapper(
model_name='BAAI/bge-small-en-v1.5',
model_kwargs={'device': 'cuda:0'}
)
# LLM模型初始化
llm_model = LangchainLLMWrapper(
endpoint_url="http://localhost:8000/",
max_new_tokens=1024,
temperature=0.1,
huggingfacehub_api_token="token"
)
# 测试集生成器初始化
generator = TestsetGenerator.from_langchain(
generator_llm=llm_model,
critic_llm=llm_model,
embeddings=embeddings,
)
2. 正确调用异步方法
关键是要在异步上下文中调用generate_with_langchain_docs方法:
import asyncio
async def generate_testset():
testset = await generator.generate_with_langchain_docs(
documents=documents,
test_size=2,
distributions={'simple': 0.5, 'reasoning': 0.25, 'multi_context': 0.25}
)
return testset.to_pandas()
# 执行异步函数
result = asyncio.run(generate_testset())
print(result)
3. 理解异步执行流程
在Ragas内部,测试集生成过程涉及多个异步步骤:
- 文档存储和检索
- 使用LLM生成问题和答案
- 评估生成内容的质量
- 组装最终测试集
所有这些步骤都被设计为异步执行以提高效率,特别是在处理大量文档时。
最佳实践建议
-
始终检查方法签名:在使用Ragas或其他异步库时,注意方法是否标记为async def。
-
使用明确的异步上下文:将异步调用封装在明确的async函数中,而不是直接在主线程中混合同步和异步代码。
-
错误处理:为异步操作添加适当的错误处理机制,特别是当处理网络请求或外部API调用时。
-
性能考虑:对于大规模文档处理,可以考虑使用更高级的异步模式,如asyncio.gather来并行处理多个文档。
总结
Ragas项目中的TestsetGenerator是一个强大的工具,但需要正确理解和使用Python的异步编程模型。通过遵循上述解决方案和最佳实践,开发者可以充分利用Ragas的功能,同时避免常见的异步编程陷阱。记住,在Python中处理协程时,await关键字不是可选的,而是必须的语法元素。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
jiuwenclawJiuwenClaw 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。Python0194- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
AtomGit城市坐标计划AtomGit 城市坐标计划开启!让开源有坐标,让城市有星火。致力于与城市合伙人共同构建并长期运营一个健康、活跃的本地开发者生态。01
awesome-zig一个关于 Zig 优秀库及资源的协作列表。Makefile00