Paperless-AI项目中的API性能优化实践

2025-06-27 23:53:33作者：袁立春Spencer

An automated document analyzer for Paperless-ngx using OpenAI API, Ollama, Deepseek-r1, Azure and all OpenAI API compatible Services to automatically analyze and tag your documents.

项目地址：https://gitcode.com/gh_mirrors/pa/paperless-ai

问题背景

在Paperless-AI项目的实际部署中，用户反馈了一个严重的性能问题：当系统首次启动时，会对Paperless文档管理系统发起大量API请求，导致服务器负载急剧升高。具体表现为日志中频繁出现"Fetched page X, got 0 matching documents"和"Error fetching tag text for ID X: socket hang up"等错误信息。

问题分析

经过深入分析，我们发现问题的根源在于Paperless-AI服务在初始化时获取文档的方式存在优化空间。主要问题包括：

全量数据获取：服务会一次性请求所有文档数据，包括文档内容(OCR文本)，对于拥有大量文档(如11,000份)的系统来说，这会造成巨大压力。
重复请求：标签信息没有有效缓存，导致频繁重复请求相同的标签数据。
缺乏分页控制：虽然实现了分页获取，但没有对并发请求进行有效限制。

优化方案

针对上述问题，我们实施了以下优化措施：

1. 选择性字段获取

修改API请求参数，明确指定只获取必要的字段，避免获取文档内容等大数据量字段：

params: {
  page: page,
  page_size: 100,
  fields: 'id,title,created,created_date,added,tags,correspondent'
}

2. 标签缓存机制

引入标签缓存系统，减少对标签API的重复调用：

this.tagCache = new Map();
this.lastTagRefresh = 0;
this.CACHE_LIFETIME = 30000; // 30秒缓存时间

async ensureTagCache() {
  const now = Date.now();
  if (this.tagCache.size === 0 || (now - this.lastTagRefresh) > this.CACHE_LIFETIME) {
    await this.refreshTagCache();
  }
}

3. 请求速率控制

在分页获取文档时添加延迟，避免短时间内发起过多请求：

// 添加100ms延迟
await new Promise(resolve => setTimeout(resolve, 100));

4. 错误处理增强

完善错误处理逻辑，对API请求失败的情况进行更优雅的处理：

try {
  // API请求代码
} catch (error) {
  console.error(`Error fetching documents page ${page}:`, error.message);
  if (error.response) {
    console.error('Response data:', error.response.data);
    console.error('Response status:', error.response.status);
  }
  // 发生错误时中断循环，返回已获取的数据
  break;
}