aiohttp项目中文件描述符与传输层冲突问题深度解析

2025-05-14 22:28:29作者：韦蓉瑛

问题现象与背景

在aiohttp项目的实际使用中，部分开发者报告了一个棘手的运行时错误。错误表现为当尝试建立socket连接时，系统抛出"File descriptor xx is used by transport"的异常，同时伴随"BlockingIOError: [Errno 115] Operation now in progress"的错误信息。

这个错误具有以下典型特征：

难以复现：无法通过常规的压力测试脚本复现，仅在生产环境运行一段时间后出现
影响广泛：一旦发生，所有aiohttp相关请求都会失败，即使使用独立的客户端会话
版本相关性：主要出现在Python 3.10环境中，Python 3.12+版本未见报告

技术原理分析

底层机制剖析

这个问题本质上是一个文件描述符(FD)管理问题，涉及Python异步I/O的核心机制：

传输层(Transport)管理：asyncio的传输层负责管理socket的文件描述符，每个传输对象都会注册到事件循环中
连接建立过程：当通过aiohttp建立连接时，会经过多层调用栈，最终通过asyncio的selector_events.py执行实际的socket连接
取消机制：异步操作的取消在Python中是通过CancelledError实现的，但取消操作与实际资源释放之间存在时间差

竞态条件根源

经过深入分析，发现问题根源在于CPython实现中的一个竞态条件：

连接取消时序问题：当loop.sock_connect被取消时(如超时情况)，底层会经历以下流程：
- 调用_sock_connect创建future
- 连接超时导致future被取消
- writer已被添加到事件循环
- 清理操作通过add_done_callback延迟执行(使用call_soon)
资源释放延迟：关键问题在于sock_connect在传输层完全拆除前就返回了，导致：
- socket被关闭
- 文件描述符被重新分配
- 事件循环仍认为该FD被传输层占用
多线程影响：问题在多线程环境下更容易触发，因为FD的分配和释放可能跨线程发生

解决方案与规避措施

临时解决方案

对于受影响的用户，可以尝试以下临时解决方案：

禁用Happy Eyeballs算法：通过设置happy_eyeballs_delay=None来简化连接建立过程
```
connector = aiohttp.TCPConnector(happy_eyeballs_delay=None)
```
升级Python版本：考虑升级到Python 3.12+版本，这些版本中相关问题得到改善