MinerU2.5-2509-1.2B与Apache Airflow集成：文档处理工作流调度

2026-02-05 05:11:46作者：江焘钦

你是否还在为复杂文档的OCR解析与批量处理流程而困扰？MinerU2.5-2509-1.2B作为专为文档解析优化的1.2B参数视觉语言模型，结合Apache Airflow的工作流调度能力，可构建自动化、可扩展的文档处理管道。本文将详解如何通过Docker容器化部署实现两者无缝集成，解决多源文档批量解析、定时任务调度、资源动态分配等核心痛点。

读完本文你将获得：

MinerU2.5-2509-1.2B模型的容器化部署方案
Apache Airflow DAG定义文档处理工作流的完整代码
多节点任务并行执行与资源优化策略
错误处理与任务监控的最佳实践

技术架构概览

集成架构图

flowchart TD
    subgraph 数据层
        A[文档存储] -->|S3/FTP/本地目录| B[文件监听组件]
    end
    
    subgraph 计算层
        B -->|触发事件| C[Apache Airflow]
        C -->|调度任务| D[MinerU2.5容器集群]
        D -->|OCR解析| E[结果数据库]
        E -->|结构化数据| F[下游应用]
    end
    
    subgraph 监控层
        C -->|元数据| G[Airflow UI]
        D -->|日志| H[Prometheus]
        H -->|指标可视化| I[Grafana]
    end

核心组件说明

组件	功能描述	项目资源
MinerU2.5-2509-1.2B	1.2B参数视觉语言模型，支持复杂文档OCR与解析	模型权重
Apache Airflow	工作流编排引擎，支持任务依赖管理与定时调度	官方文档
Docker	容器化部署环境，确保模型运行环境一致性	Dockerfile
Kubernetes	容器编排平台，提供弹性扩缩容能力	K8s部署配置

MinerU2.5-2509-1.2B容器化部署

基础镜像构建

基于项目提供的Dockerfile，扩展构建包含Airflow客户端的集成镜像：

FROM python:3.10-slim
WORKDIR /app

# 安装模型依赖
RUN pip install mineru-vl-utils[transformers] apache-airflow==2.8.0

# 克隆模型仓库
RUN git clone https://gitcode.com/hf_mirrors/opendatalab/MinerU2.5-2509-1.2B /app/model

# 安装模型权重
RUN python -c "from transformers import AutoProcessor, Qwen2VLForConditionalGeneration; \
               model = Qwen2VLForConditionalGeneration.from_pretrained('/app/model', dtype='auto', device_map='auto'); \
               processor = AutoProcessor.from_pretrained('/app/model', use_fast=True); \
               print('Model loaded successfully')"

# 暴露API端口
EXPOSE 5000

Kubernetes部署配置

使用项目提供的kubernetes/deployment.yaml作为基础模板，添加Airflow Worker配置：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: mineru-airflow-worker
spec:
  replicas: 3  # 根据文档处理量动态调整
  template:
    spec:
      containers:
      - name: worker
        image: mineru25-airflow:latest
        resources:
          limits:
            cpu: "4"
            memory: "8Gi"
          requests:
            cpu: "2"
            memory: "4Gi"
        env:
        - name: AIRFLOW__CORE__EXECUTOR
          value: "CeleryExecutor"
        - name: MINERU_MODEL_PATH
          value: "/app/model"

Airflow工作流定义

DAG文件结构

classDiagram
    class DocumentProcessingDAG {
        - default_args: dict
        - schedule_interval: str
        + __init__()
        + create_dag()
    }
    
    class FileSensor {
        + poke(context) bool
    }
    
    class MinerUOperator {
        + execute(context) dict
    }
    
    DocumentProcessingDAG --> FileSensor : 包含
    DocumentProcessingDAG --> MinerUOperator : 包含

完整DAG实现代码

from airflow import DAG
from airflow.sensors.filesystem import FileSensor
from airflow.operators.python import PythonOperator
from airflow.utils.dates import days_ago
from datetime import timedelta
from PIL import Image
from mineru_vl_utils import MinerUClient
from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
import os
import json

default_args = {
    'owner': 'data-engineering',
    'depends_on_past': False,
    'email_on_failure': True,
    'email_on_retry': False,
    'retries': 2,
    'retry_delay': timedelta(minutes=5),
    'execution_timeout': timedelta(hours=2),
}

def process_document(file_path, **context):
    """使用MinerU2.5处理单个文档"""
    model_path = os.environ.get('MINERU_MODEL_PATH', '/app/model')
    
    # 加载模型与处理器
    model = Qwen2VLForConditionalGeneration.from_pretrained(
        model_path, 
        dtype="auto",
        device_map="auto"
    )
    processor = AutoProcessor.from_pretrained(
        model_path,
        use_fast=True
    )
    
    # 初始化客户端
    client = MinerUClient(
        backend="transformers",
        model=model,
        processor=processor
    )
    
    # 执行两阶段提取
    image = Image.open(file_path)
    result = client.two_step_extract(image)
    
    # 保存结果到JSON文件
    output_path = f"{os.path.splitext(file_path)[0]}_result.json"
    with open(output_path, 'w') as f:
        json.dump(result, f, indent=2)
    
    return output_path

with DAG(
    'mineru_document_processing',
    default_args=default_args,
    description='MinerU2.5文档处理工作流',
    schedule_interval=timedelta(hours=1),  # 每小时执行一次
    start_date=days_ago(1),
    catchup=False,
    tags=['mineru', 'ocr', 'document-processing'],
) as dag:

    # 1. 监听新文档 arrival
    wait_for_documents = FileSensor(
        task_id='wait_for_new_documents',
        filepath='/data/incoming',
        fs_conn_id='mineru_filesystem',
        recursive=True,
        poke_interval=60,  # 每分钟检查一次
        timeout=3600,  # 1小时超时
    )

    # 2. 批量处理文档
    process_docs = PythonOperator(
        task_id='process_documents',
        python_callable=process_document,
        op_kwargs={'file_path': '{{ ti.xcom_pull(task_ids="wait_for_new_documents") }}'},
        provide_context=True,
    )

    # 3. 结果归档
    archive_results = BashOperator(
        task_id='archive_results',
        bash_command='mv /data/incoming/*_result.json /data/archive/ && mv /data/incoming/*.pdf /data/processed/',
    )

    wait_for_documents >> process_docs >> archive_results

性能优化策略

资源分配矩阵

文档类型	CPU请求	内存请求	GPU配置	并发任务数
单页PDF	2核	4Gi	可选	8-12
多页扫描件	4核	8Gi	推荐	4-6
表格密集型文档	4核	12Gi	必须	2-3

并行执行配置

通过Airflow的CeleryExecutor实现多worker并行处理，在airflow.cfg中配置：

[core]
executor = CeleryExecutor

[celery]
broker_url = redis://redis:6379/0
result_backend = db+postgresql://airflow:airflow@postgres/airflow
worker_concurrency = 16  # 根据CPU核心数调整

监控与错误处理

任务监控流程图

sequenceDiagram
    participant A as Airflow Scheduler
    participant B as Worker节点
    participant C as Prometheus
    participant D as AlertManager
    
    A->>B: 分配文档处理任务
    B->>B: 执行OCR解析
    alt 任务成功
        B->>A: 返回处理结果
    else 任务失败
        B->>A: 上报错误日志
        A->>D: 触发告警
    end
    A->>C: 推送任务 metrics
    C->>D: 阈值监控

错误重试策略

在DAG定义中配置阶梯式重试机制：

default_args = {
    'retries': 3,
    'retry_delay': timedelta(seconds=[60, 300, 900]),  # 1min, 5min, 15min递增延迟
    'retry_exponential_backoff': True,
}

部署与运维指南

Docker Compose部署

创建docker-compose.yml整合Airflow与MinerU2.5服务：

version: '3.8'

services:
  airflow-webserver:
    image: apache/airflow:2.8.0
    depends_on:
      - postgres
      - redis
    environment:
      - AIRFLOW__CORE__EXECUTOR=CeleryExecutor
      - AIRFLOW__DATABASE__SQL_ALCHEMY_CONN=postgresql+psycopg2://airflow:airflow@postgres/airflow
    volumes:
      - ./dags:/opt/airflow/dags
      - ./logs:/opt/airflow/logs
    ports:
      - "8080:8080"

  mineru-worker:
    build: .
    depends_on:
      - airflow-webserver
    environment:
      - MINERU_MODEL_PATH=/app/model
      - AIRFLOW__CORE__EXECUTOR=CeleryExecutor
    volumes:
      - model-storage:/app/model
      - ./data:/data

  postgres:
    image: postgres:13
    environment:
      - POSTGRES_USER=airflow
      - POSTGRES_PASSWORD=airflow
      - POSTGRES_DB=airflow

  redis:
    image: redis:latest
    ports:
      - "6379:6379"

volumes:
  model-storage:
    driver: local

日志收集配置

在Kubernetes部署中通过sidecar容器收集应用日志：

containers:
- name: mineru-container
  image: mineru25-airflow:latest
  # ...其他配置
  
- name: log-collector
  image: busybox
  command: ["tail", "-f", "/var/log/mineru/worker.log"]
  volumeMounts:
  - name: logs-volume
    mountPath: /var/log/mineru