aiofiles项目中的大规模文件下载性能优化实践

2025-06-26 22:11:29作者：伍希望

在Python异步编程中，aiofiles是一个常用的异步文件操作库，它允许开发者在asyncio环境中进行非阻塞的文件I/O操作。本文将通过一个实际案例，探讨如何优化使用aiofiles进行大规模文件下载的性能问题。

问题背景

当开发者需要下载数千个照片和视频文件时，发现下载速度仅为每秒2个文件左右，这对于大规模文件下载来说效率明显不足。原始实现使用了aiohttp进行网络请求，配合aiofiles进行文件写入，但性能表现不佳。

原始实现分析

原始代码采用了以下结构：

创建aiohttp客户端会话，设置连接限制为3
为每个下载任务创建future对象
使用asyncio.as_completed配合tqdm进度条逐个等待任务完成

这种实现方式存在几个潜在问题：

使用asyncio.as_completed逐个处理future会导致任务启动速度受限
进度条更新与任务处理耦合在一起，可能影响整体性能
文件写入和postid记录采用同步方式，可能成为瓶颈

性能优化方案

经过分析测试，我们提出了三种改进方案：

方案一：直接使用asyncio.gather

asyncio.gather可以并行启动所有任务，显著提高并发度。但缺点是无法直接显示进度条，用户无法直观了解下载进度。

方案二：自定义带进度条的gather函数

结合方案一的并行优势和进度条显示需求，开发了一个async_gather_with_progress辅助函数。该函数：

首先创建所有任务
然后使用asyncio.as_completed等待任务完成
在任务完成时更新进度条

这种实现既保持了高并发度，又提供了良好的用户体验。

方案三：连接池优化

适当增加aiohttp的TCP连接器限制(从3提高到5)，可以进一步提高并发下载能力。但需要注意不要设置过高，以免对服务器造成过大压力或被封禁。

关键代码实现

优化后的核心代码如下：

async def async_gather_with_progress(self, *futures):
    tasks = [asyncio.create_task(future) for future in futures]
    progress_bar = tqdm(total=len(tasks), desc='Getting photos', unit='photos')

    for task in asyncio.as_completed(tasks):
        await task
        progress_bar.update(1)

    progress_bar.close()