Verba项目大规模文档导入性能优化实践

2025-05-30 02:40:28作者：温艾琴Wonderful

Verba是一个基于Weaviate构建的文档检索与分析系统，在实际使用中面临大规模文档导入时的性能瓶颈问题。本文将深入分析问题根源，并分享一套完整的优化方案。

问题现象分析

当用户尝试批量导入超过1000份文档时，系统表现出两个典型问题：

文档处理呈现"批量化"特征，每次仅能处理约10份文档，其余文档导入失败
累计处理约100份文档后，整个应用服务崩溃

这种问题在文档管理系统中较为常见，通常与资源管理、任务调度机制有关。经过分析，主要存在以下技术痛点：

同步阻塞式处理：原始实现采用同步处理模式，导致请求堆积
缺乏弹性机制：没有重试策略和错误隔离，单个失败影响整体
资源泄漏：未妥善管理数据库连接和内存资源

架构优化方案

采用生产者-消费者模式重构导入流程，关键改进点包括：

1. 异步任务队列实现

class ImportTaskQueue:
    def __init__(self):
        self._tasks = deque()
        self._lock = asyncio.Lock()

    async def add_task(self, task):
        async with self._lock:
            self._tasks.append(task)

    async def get_task(self):
        async with self._lock:
            if self._tasks:
                return self._tasks.popleft()
            return None

该队列提供线程安全的FIFO操作，确保任务有序处理。使用asyncio原语实现高效并发控制。

2. 后台消费者服务

async def consumer():
    while True:
        item = await import_queue.get_task()
        if item is None:
            await asyncio.sleep(0.5)
            continue
        
        try:
            # 批处理逻辑
            fileConfig = batcher.add_batch(item)
            if fileConfig is not None:
                attempts = 0
                max_attempts = 5
                while attempts < max_attempts:
                    try:
                        client = await client_manager.connect(item.credentials)
                        await manager.import_document(client, fileConfig, logger)
                        break
                    except Exception as e:
                        attempts += 1
                        if attempts < max_attempts:
                            await asyncio.sleep(3)

消费者服务实现了以下关键特性：

持续运行的任务处理循环
智能休眠机制避免CPU空转
自动重试机制（最多5次）
渐进式退避策略（每次失败等待3秒）

3. WebSocket端点优化

@app.websocket("/ws/import_files")
async def websocket_import_files(websocket: WebSocket):
    await websocket.accept()
    
    # 启动消费者任务（单例模式）
    global consumer_task
    if consumer_task is None:
        consumer_task = asyncio.create_task(consumer())

    while True:
        try:
            data = await websocket.receive_text()
            batch_data = DataBatchPayload.model_validate_json(data)
            await import_queue.add_task(batch_data)
        except WebSocketDisconnect:
            continue
        except Exception as e:
            continue