首页
/ Kedro项目中异步运行模式在Jupyter环境下的兼容性问题分析

Kedro项目中异步运行模式在Jupyter环境下的兼容性问题分析

2025-05-22 22:44:50作者:胡易黎Nicole

背景介绍

Kedro是一个优秀的Python数据工程框架,在其0.19.12版本中引入了异步运行模式(is_async=True)的功能,该功能旨在通过异步I/O操作提升数据加载和保存的性能。然而,在最新开发分支中,这一功能在Jupyter Notebook环境下出现了兼容性问题。

问题现象

当用户在Jupyter Notebook中尝试使用SequentialRunner(is_async=True)运行管道时,系统会抛出"asyncio.run() cannot be called from a running event loop"的运行时错误。这一现象表明,当前的异步实现方式与Jupyter现有的异步事件循环机制存在冲突。

技术分析

根本原因

Jupyter Notebook本身已经运行在一个异步事件循环中。当Kedro尝试通过asyncio.run()启动新的异步事件循环时,违反了Python异步编程的基本原则——不能在一个运行中的事件循环内启动另一个事件循环。

解决方案探讨

开发团队探讨了多种可能的解决方案:

  1. 嵌套事件循环检测:通过检查当前是否存在运行中的事件循环,分别采用run_until_completeasyncio.run执行异步任务。但测试表明这种方法在某些情况下并不奏效。

  2. 第三方库nest_asyncio:该库可以修补Python的异步机制以支持嵌套事件循环。但考虑到该项目已归档且存在潜在风险,团队决定不予采用。

  3. 线程隔离方案:在检测到已有事件循环运行时,在新线程中执行异步任务。这是目前最稳健的解决方案,虽然会带来轻微的线程创建开销。

  4. 回退到线程池方案:完全放弃当前的异步实现,回归到基于ThreadPoolExecutor的线程池方案。

最佳实践建议

基于技术评估,我们建议:

  1. 对于Kedro用户,在Jupyter环境中暂时避免使用异步模式,等待官方修复。

  2. 对于框架开发者,优先考虑线程隔离方案,因为它:

    • 保持与现有Jupyter环境的兼容性
    • 不引入额外的依赖
    • 遵循Python异步编程的最佳实践
  3. 长期来看,可以考虑为数据集接口添加原生异步支持(如async load/save方法),这将提供更优雅的异步实现方案。

性能考量

值得注意的是,异步I/O优化主要针对高延迟的数据源(如远程存储)。对于本地文件系统操作,线程池方案可能已经足够高效。开发者应在性能需求和代码可维护性之间做出平衡。

结论

异步编程在数据工程领域具有重要价值,但实现方式需要谨慎考虑执行环境的特点。Kedro团队正在积极解决这一问题,以确保框架在各种环境下都能提供稳定可靠的异步执行能力。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
53
468
kernelkernel
deepin linux kernel
C
22
5
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
7
0
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
878
517
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
336
1.1 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
180
264
cjoycjoy
一个高性能、可扩展、轻量、省心的仓颉Web框架。Rest, 宏路由,Json, 中间件,参数绑定与校验,文件上传下载,MCP......
Cangjie
87
14
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.08 K
0
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
349
381
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
612
60