高效提取文档图像：docling图像导出全指南

2026-02-04 04:52:51作者：仰钰奇

你是否还在为从PDF、Word等文档中提取图像而烦恼？手动截图质量差、格式错乱，专业工具又复杂难用？本文将带你掌握docling的图像导出功能，轻松解决文档图像提取与管理难题。读完本文，你将学会如何一键导出文档中的页面、图表和表格图像，并灵活控制导出格式与存储方式。

为什么选择docling图像导出

在生成式AI（Generative AI）时代，文档中的图像往往包含关键信息。docling作为专注于文档预处理的工具，其图像导出功能具有以下优势：

多格式支持：兼容PDF、Word、Excel等20+种文档格式
智能识别：自动区分页面、图表、表格等不同类型图像
高质量提取：保持原始图像分辨率与清晰度
灵活输出：支持嵌入式（Base64）或引用式（文件链接）两种导出模式

docling的图像导出功能基于其模块化架构实现，位于整个文档处理流程的核心环节：

快速开始：安装与基础配置

环境准备

确保已安装docling及相关依赖：

pip install "docling[all]" pillow

核心依赖说明：

pillow：用于图像格式处理与保存
docling[all]：完整安装包，包含所有图像提取所需组件

官方安装文档：安装指南

核心参数配置

docling提供丰富的图像导出参数，位于PdfPipelineOptions类中：

from docling.datamodel.pipeline_options import PdfPipelineOptions

pipeline_options = PdfPipelineOptions()
pipeline_options.images_scale = 2.0  # 图像分辨率缩放因子，1.0=72DPI
pipeline_options.generate_page_images = True  # 启用页面图像生成
pipeline_options.generate_picture_images = True  # 启用图表图像生成

关键参数说明：

参数名	类型	默认值	说明
images_scale	float	1.0	图像缩放比例，建议设置为2.0获取高清图像
generate_page_images	bool	False	是否生成整页图像
generate_picture_images	bool	False	是否提取文档中的图表元素

实战教程：完整图像导出流程

1. 基础导出代码示例

以下是使用docling导出图像的完整示例，位于export_figures.py：

from docling.document_converter import DocumentConverter
from docling.datamodel.pipeline_options import PdfPipelineOptions
from docling.datamodel.base_models import InputFormat
from docling_core.types.doc import ImageRefMode

# 1. 配置图像提取参数
pipeline_options = PdfPipelineOptions()
pipeline_options.images_scale = 2.0  # 2倍分辨率
pipeline_options.generate_page_images = True
pipeline_options.generate_picture_images = True

# 2. 创建文档转换器
doc_converter = DocumentConverter(
    format_options={
        InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)
    }
)

# 3. 执行转换与图像提取
conv_res = doc_converter.convert("input.pdf")

# 4. 保存页面图像
for page_no, page in conv_res.document.pages.items():
    with open(f"page-{page_no}.png", "wb") as fp:
        page.image.pil_image.save(fp, format="PNG")

2. 高级应用：分类导出图表与表格

docling能智能识别并分类导出不同类型的图像元素：

table_counter = 0
picture_counter = 0

# 遍历文档元素并分类保存
for element, _level in conv_res.document.iterate_items():
    if isinstance(element, TableItem):  # 表格元素
        table_counter += 1
        element.get_image(conv_res.document).save(
            f"table-{table_counter}.png", "PNG"
        )
    elif isinstance(element, PictureItem):  # 图表元素
        picture_counter += 1
        element.get_image(conv_res.document).save(
            f"figure-{picture_counter}.png", "PNG"
        )

这段代码会自动区分表格和图表，并分别保存到不同文件，方便后续处理。

3. 输出格式选择

docling支持两种图像嵌入模式，通过ImageRefMode控制：

# 嵌入式：图像转为Base64编码嵌入Markdown
conv_res.document.save_as_markdown(
    "output-embedded.md", image_mode=ImageRefMode.EMBEDDED
)

# 引用式：生成单独图像文件并创建链接
conv_res.document.save_as_markdown(
    "output-referenced.md", image_mode=ImageRefMode.REFERENCED
)

两种模式对比：

模式	优点	缺点	适用场景
嵌入式	单文件管理，便于分享	文件体积大	小型文档、即时分享
引用式	文件体积小，加载快	需要管理多个文件	大型文档、长期存储

可视化与高级应用

图像标注与可视化

docling提供图像可视化工具，可在图像上标注元素类型与置信度：

实现代码位于visualization.py，核心函数：

def draw_clusters(image, clusters, scale_x, scale_y):
    # 在图像上绘制元素边界框与标签
    draw = ImageDraw.Draw(image, "RGBA")
    # ... 绘制逻辑 ...

与AI系统集成

提取的图像可直接用于AI模型训练或推理，例如：

视觉问答（VQA）：将图像与文本一同输入模型
图像分类：使用docling的document_picture_classifier.py进行图像分类
多模态检索：构建图像-文本关联索引

常见问题与最佳实践

图像提取质量优化

分辨率设置：对于学术论文或包含精细图表的文档，建议设置images_scale=3.0
格式选择：优先使用PNG格式保存线条图，JPEG格式保存照片类图像
批量处理：使用batch_convert.py处理多个文档

性能优化建议

内存控制：处理大型PDF时，设置max_workers=1避免内存溢出
增量提取：通过conv_res.document.pages按需提取指定页面
缓存机制：对重复处理的文档，启用结果缓存功能

常见错误排查

错误类型	可能原因	解决方案
图像为空	未启用对应图像生成选项	检查`generate_*`参数是否设为True
分辨率低	缩放因子设置过小	增大`images_scale`值
表格识别错误	复杂表格结构	更新docling至最新版本