Stirling-PDF元数据编辑教程:修改PDF作者/标题/关键词技巧
你还在为PDF文件的作者信息错误、标题不规范或关键词缺失而烦恼吗?本文将详细介绍如何使用Stirling-PDF修改PDF元数据(Metadata),包括作者、标题、关键词等关键信息,让你的PDF文件更加专业和易于管理。读完本文后,你将能够熟练掌握元数据编辑的全部流程,并了解背后的技术实现原理。
元数据编辑功能概述
PDF元数据(Metadata)是嵌入在PDF文件中的关键信息,包括作者、标题、主题、关键词等,这些信息对于文件管理、搜索和版权保护至关重要。Stirling-PDF通过直观的界面和强大的后端服务,让用户可以轻松修改这些元数据。
Stirling-PDF的元数据编辑功能由PdfMetadataService提供核心支持,该服务位于app/common/src/main/java/stirling/software/common/service/PdfMetadataService.java。它主要负责元数据的提取、设置和转换,支持标准PDF元数据的全部字段。
元数据模型结构
在开始编辑元数据之前,我们先了解一下Stirling-PDF中元数据的数据结构。元数据信息被封装在PdfMetadata类中,定义如下:
@Data
@Builder
@NoArgsConstructor
@AllArgsConstructor
public class PdfMetadata {
private String author; // 作者
private String producer; // 生产者
private String title; // 标题
private String creator; // 创建者
private String subject; // 主题
private String keywords; // 关键词
private ZonedDateTime creationDate; // 创建日期
private ZonedDateTime modificationDate; // 修改日期
}
该类位于app/common/src/main/java/stirling/software/common/model/PdfMetadata.java,使用Lombok注解简化了getter、setter和构造函数的编写。
编辑元数据的步骤
1. 提取现有元数据
在修改元数据之前,首先需要从PDF文件中提取当前的元数据。PdfMetadataService提供了extractMetadataFromPdf方法来完成这一操作:
public PdfMetadata extractMetadataFromPdf(PDDocument pdf) {
Calendar creationCal = pdf.getDocumentInformation().getCreationDate();
Calendar modificationCal = pdf.getDocumentInformation().getModificationDate();
ZonedDateTime creationDate = creationCal != null ?
ZonedDateTime.ofInstant(creationCal.toInstant(), ZoneId.systemDefault()) : null;
ZonedDateTime modificationDate = modificationCal != null ?
ZonedDateTime.ofInstant(modificationCal.toInstant(), ZoneId.systemDefault()) : null;
return PdfMetadata.builder()
.author(pdf.getDocumentInformation().getAuthor())
.producer(pdf.getDocumentInformation().getProducer())
.title(pdf.getDocumentInformation().getTitle())
.creator(pdf.getDocumentInformation().getCreator())
.subject(pdf.getDocumentInformation().getSubject())
.keywords(pdf.getDocumentInformation().getKeywords())
.creationDate(creationDate)
.modificationDate(modificationDate)
.build();
}
该方法通过PDFBox库获取PDF文档信息,并将其转换为PdfMetadata对象。
2. 修改元数据字段
提取元数据后,你可以根据需要修改各个字段。以下是可修改的主要字段及其含义:
| 字段名称 | 说明 | 示例值 |
|---|---|---|
| author | 文档作者 | "张三" |
| title | 文档标题 | "2023年度报告" |
| subject | 文档主题 | "财务报告" |
| keywords | 文档关键词 | "财务,报告,2023" |
| creator | 创建者 | "Stirling-PDF" |
| producer | 生产者 | "Stirling-PDF 0.14.0" |
3. 保存修改后的元数据
修改完成后,使用setMetadataToPdf方法将新的元数据写回PDF文件:
public void setMetadataToPdf(PDDocument pdf, PdfMetadata pdfMetadata) {
setMetadataToPdf(pdf, pdfMetadata, false);
}
private void setCommonMetadata(PDDocument pdf, PdfMetadata pdfMetadata) {
pdf.getDocumentInformation().setTitle(pdfMetadata.getTitle());
pdf.getDocumentInformation().setSubject(pdfMetadata.getSubject());
pdf.getDocumentInformation().setKeywords(pdfMetadata.getKeywords());
// 处理修改日期
Calendar modificationCal = pdfMetadata.getModificationDate() != null ?
toCalendar(pdfMetadata.getModificationDate()) : Calendar.getInstance();
pdf.getDocumentInformation().setModificationDate(modificationCal);
// 设置作者信息
pdf.getDocumentInformation().setAuthor(pdfMetadata.getAuthor());
}
高级功能:批量修改与自动更新
对于专业版用户,Stirling-PDF还提供了元数据自动更新功能。通过配置applicationProperties,可以实现创建者、生产者等信息的自动填充:
if (applicationProperties.getPremium().getProFeatures().getCustomMetadata().isAutoUpdateMetadata()
&& runningProOrHigher) {
creator = applicationProperties.getPremium().getProFeatures().getCustomMetadata().getCreator();
pdf.getDocumentInformation().setProducer(stirlingPDFLabel);
}
这段代码位于app/common/src/main/java/stirling/software/common/service/PdfMetadataService.java的setNewDocumentMetadata方法中,允许专业版用户自定义默认元数据模板。
常见问题解决
日期格式问题
如果遇到日期格式错误,可以使用parseToCalendar方法进行日期字符串解析:
public static Calendar parseToCalendar(String dateString) {
if (dateString == null || dateString.trim().isEmpty()) {
return null;
}
try {
DateTimeFormatter formatter = DateTimeFormatter.ofPattern("yyyy/MM/dd HH:mm:ss");
ZonedDateTime zonedDateTime = LocalDateTime.parse(dateString, formatter)
.atZone(ZoneId.systemDefault());
return toCalendar(zonedDateTime);
} catch (Exception e) {
return null;
}
}
该方法支持"yyyy/MM/dd HH:mm:ss"格式的日期字符串转换。
特殊字符处理
当元数据中包含特殊字符时,Stirling-PDF会自动进行转义处理,确保PDF文件兼容性。如果需要手动处理,可以使用GeneralUtils中的字符串处理工具,该工具位于app/common/src/main/java/stirling/software/common/util/GeneralUtils.java。
总结
通过本文介绍的方法,你可以轻松修改PDF文件的元数据信息,包括作者、标题、关键词等关键内容。Stirling-PDF的元数据编辑功能不仅操作简单,还提供了批量处理和自动更新等高级特性,满足不同用户的需求。
如果你在使用过程中遇到问题,可以参考官方文档HowToUseOCR.md或查看项目源码获取更多帮助。对于开发者,元数据服务的实现代码PdfMetadataService.java是学习PDF元数据处理的绝佳参考。
掌握PDF元数据编辑技巧,让你的文档管理更加高效和专业!
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00