Stirling-PDF元数据编辑教程:修改PDF作者/标题/关键词技巧
你还在为PDF文件的作者信息错误、标题不规范或关键词缺失而烦恼吗?本文将详细介绍如何使用Stirling-PDF修改PDF元数据(Metadata),包括作者、标题、关键词等关键信息,让你的PDF文件更加专业和易于管理。读完本文后,你将能够熟练掌握元数据编辑的全部流程,并了解背后的技术实现原理。
元数据编辑功能概述
PDF元数据(Metadata)是嵌入在PDF文件中的关键信息,包括作者、标题、主题、关键词等,这些信息对于文件管理、搜索和版权保护至关重要。Stirling-PDF通过直观的界面和强大的后端服务,让用户可以轻松修改这些元数据。
Stirling-PDF的元数据编辑功能由PdfMetadataService提供核心支持,该服务位于app/common/src/main/java/stirling/software/common/service/PdfMetadataService.java。它主要负责元数据的提取、设置和转换,支持标准PDF元数据的全部字段。
元数据模型结构
在开始编辑元数据之前,我们先了解一下Stirling-PDF中元数据的数据结构。元数据信息被封装在PdfMetadata类中,定义如下:
@Data
@Builder
@NoArgsConstructor
@AllArgsConstructor
public class PdfMetadata {
private String author; // 作者
private String producer; // 生产者
private String title; // 标题
private String creator; // 创建者
private String subject; // 主题
private String keywords; // 关键词
private ZonedDateTime creationDate; // 创建日期
private ZonedDateTime modificationDate; // 修改日期
}
该类位于app/common/src/main/java/stirling/software/common/model/PdfMetadata.java,使用Lombok注解简化了getter、setter和构造函数的编写。
编辑元数据的步骤
1. 提取现有元数据
在修改元数据之前,首先需要从PDF文件中提取当前的元数据。PdfMetadataService提供了extractMetadataFromPdf方法来完成这一操作:
public PdfMetadata extractMetadataFromPdf(PDDocument pdf) {
Calendar creationCal = pdf.getDocumentInformation().getCreationDate();
Calendar modificationCal = pdf.getDocumentInformation().getModificationDate();
ZonedDateTime creationDate = creationCal != null ?
ZonedDateTime.ofInstant(creationCal.toInstant(), ZoneId.systemDefault()) : null;
ZonedDateTime modificationDate = modificationCal != null ?
ZonedDateTime.ofInstant(modificationCal.toInstant(), ZoneId.systemDefault()) : null;
return PdfMetadata.builder()
.author(pdf.getDocumentInformation().getAuthor())
.producer(pdf.getDocumentInformation().getProducer())
.title(pdf.getDocumentInformation().getTitle())
.creator(pdf.getDocumentInformation().getCreator())
.subject(pdf.getDocumentInformation().getSubject())
.keywords(pdf.getDocumentInformation().getKeywords())
.creationDate(creationDate)
.modificationDate(modificationDate)
.build();
}
该方法通过PDFBox库获取PDF文档信息,并将其转换为PdfMetadata对象。
2. 修改元数据字段
提取元数据后,你可以根据需要修改各个字段。以下是可修改的主要字段及其含义:
| 字段名称 | 说明 | 示例值 |
|---|---|---|
| author | 文档作者 | "张三" |
| title | 文档标题 | "2023年度报告" |
| subject | 文档主题 | "财务报告" |
| keywords | 文档关键词 | "财务,报告,2023" |
| creator | 创建者 | "Stirling-PDF" |
| producer | 生产者 | "Stirling-PDF 0.14.0" |
3. 保存修改后的元数据
修改完成后,使用setMetadataToPdf方法将新的元数据写回PDF文件:
public void setMetadataToPdf(PDDocument pdf, PdfMetadata pdfMetadata) {
setMetadataToPdf(pdf, pdfMetadata, false);
}
private void setCommonMetadata(PDDocument pdf, PdfMetadata pdfMetadata) {
pdf.getDocumentInformation().setTitle(pdfMetadata.getTitle());
pdf.getDocumentInformation().setSubject(pdfMetadata.getSubject());
pdf.getDocumentInformation().setKeywords(pdfMetadata.getKeywords());
// 处理修改日期
Calendar modificationCal = pdfMetadata.getModificationDate() != null ?
toCalendar(pdfMetadata.getModificationDate()) : Calendar.getInstance();
pdf.getDocumentInformation().setModificationDate(modificationCal);
// 设置作者信息
pdf.getDocumentInformation().setAuthor(pdfMetadata.getAuthor());
}
高级功能:批量修改与自动更新
对于专业版用户,Stirling-PDF还提供了元数据自动更新功能。通过配置applicationProperties,可以实现创建者、生产者等信息的自动填充:
if (applicationProperties.getPremium().getProFeatures().getCustomMetadata().isAutoUpdateMetadata()
&& runningProOrHigher) {
creator = applicationProperties.getPremium().getProFeatures().getCustomMetadata().getCreator();
pdf.getDocumentInformation().setProducer(stirlingPDFLabel);
}
这段代码位于app/common/src/main/java/stirling/software/common/service/PdfMetadataService.java的setNewDocumentMetadata方法中,允许专业版用户自定义默认元数据模板。
常见问题解决
日期格式问题
如果遇到日期格式错误,可以使用parseToCalendar方法进行日期字符串解析:
public static Calendar parseToCalendar(String dateString) {
if (dateString == null || dateString.trim().isEmpty()) {
return null;
}
try {
DateTimeFormatter formatter = DateTimeFormatter.ofPattern("yyyy/MM/dd HH:mm:ss");
ZonedDateTime zonedDateTime = LocalDateTime.parse(dateString, formatter)
.atZone(ZoneId.systemDefault());
return toCalendar(zonedDateTime);
} catch (Exception e) {
return null;
}
}
该方法支持"yyyy/MM/dd HH:mm:ss"格式的日期字符串转换。
特殊字符处理
当元数据中包含特殊字符时,Stirling-PDF会自动进行转义处理,确保PDF文件兼容性。如果需要手动处理,可以使用GeneralUtils中的字符串处理工具,该工具位于app/common/src/main/java/stirling/software/common/util/GeneralUtils.java。
总结
通过本文介绍的方法,你可以轻松修改PDF文件的元数据信息,包括作者、标题、关键词等关键内容。Stirling-PDF的元数据编辑功能不仅操作简单,还提供了批量处理和自动更新等高级特性,满足不同用户的需求。
如果你在使用过程中遇到问题,可以参考官方文档HowToUseOCR.md或查看项目源码获取更多帮助。对于开发者,元数据服务的实现代码PdfMetadataService.java是学习PDF元数据处理的绝佳参考。
掌握PDF元数据编辑技巧,让你的文档管理更加高效和专业!
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00