Kedro项目中异步模式在Jupyter环境失效问题分析与解决方案

2025-05-22 08:30:50作者：段琳惟

**探索数据科学的新境界：Kedro，打造生产级管道的艺术师** Kedro，一个由LF AI & Data Foundation托管的开源框架，正引领数据科学与工程步入模块化、可复制及维护性的新时代。借助其基于Cookiecutter的强大项目模板和直观的数据目录，Kedro让管理各种文件格式和系统的数据变得轻而易举。通过可视化管道和严谨的编码标准，Kedro不仅促进了团队间高效合作，还支持灵活部署到多种平台，包括云和分布式环境。无论是初学者还是专家，都能在Kedro的世界中找到构建稳健数据分析流程的乐趣。加入全球贡献者的行列，利用Kedro推动你的数据项目从概念到生产的飞跃，共创可信赖的智能应用。现在就启程，在Kedro的帮助下，让你的数据故事更加清晰有力！

项目地址：https://gitcode.com/gh_mirrors/ked/kedro

在Kedro数据工程框架的最新开发版本中，用户发现一个关键功能变更：当在Jupyter notebook环境中使用is_async=True参数时，原本正常工作的异步执行模式突然失效。这个问题源于框架内部对异步任务处理机制的改造，值得我们深入分析其技术背景和解决方案。

问题现象

在Kedro 0.19.12版本中，用户可以通过以下代码在Jupyter中正常使用异步模式：

session.run("pipeline_name", runner=SequentialRunner(is_async=True))

但在主分支代码中，同样的操作会抛出异常：

RuntimeError: asyncio.run() cannot be called from a running event loop

技术背景

这个问题的本质在于Python异步编程模型与Jupyter运行环境的冲突。Jupyter本身已经运行在一个事件循环(event loop)中，当尝试在已有事件循环中再次调用asyncio.run()时，Python会明确禁止这种嵌套行为。这是Python 3.7+引入的保护机制，因为嵌套事件循环可能导致不可预测的行为。

解决方案探讨

开发团队探讨了多种技术方案：

事件循环检测方案
通过检测当前是否存在运行中的事件循环，分别采用不同执行策略：
```
if asyncio.get_event_loop().is_running():
    loop.run_until_complete(task)
else:
    asyncio.run(task)
```
但测试发现这种方法在Jupyter中并不稳定。
第三方库方案
使用nest_asyncio库可以解除嵌套限制，但该库已停止维护，且通过monkey patch方式修改核心行为存在风险。

线程隔离方案
在新线程中创建独立的事件循环环境，这是最稳健的方案：

import threading

def run_in_thread():
    asyncio.run(task)

threading.Thread(target=run_in_thread).start()

回退方案
考虑到兼容性和稳定性，恢复使用线程池执行异步任务的原先实现。

最终决策

经过技术评估，团队决定：

短期方案：回退到线程池实现，确保现有功能稳定
长期规划：重新设计异步执行架构，考虑引入显式的异步数据集接口

对开发者的启示

这个案例给我们的技术启示包括：

在框架设计中，对异步执行需要考虑多种运行时环境
Jupyter等交互式环境有其特殊的事件循环机制
核心功能的修改需要进行全面的环境兼容性测试
在稳定性和新特性之间需要谨慎权衡

Kedro团队将继续优化异步执行机制，在保证稳定性的前提下，为数据工程提供更高效的执行能力。

kedro

项目地址：https://gitcode.com/gh_mirrors/ked/kedro

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

168

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解