Apache Paimon 日志格式优化：支持 INSERT_ONLY 模式的设计思考

2025-06-28 13:44:41作者：乔或婵

背景与需求分析

在现代数据湖架构中，Apache Paimon 作为一个高性能的流批统一存储系统，其日志系统的设计直接影响着数据处理的效率和灵活性。当前 Paimon 的 ValueEncodingFormat 默认采用全变更日志模式（ChangelogMode.ALL），这在某些特定场景下可能带来不必要的开销。

在实际生产环境中，我们观察到两类典型需求场景：

纯追加表（Append-Only Tables）：这类表天然只包含插入操作，不需要记录更新和删除事件。现有的全变更日志模式会导致存储和传输冗余。
主键表的部分日志需求：对于主键表，某些下游系统可能只需要消费插入事件，而现有的强制全变更模式使得迁移现有作业变得复杂，特别是当下游系统使用 Kafka 原生客户端等非 Flink 消费方式时。

针对上述需求，我们提出在 ValueEncodingFormat 中支持 INSERT_ONLY 日志格式的优化方案：

在具体实现上，需要考虑以下几个关键点：

该优化方案将带来以下显著收益：

这一优化不仅解决了当前的具体需求，还为 Paimon 的日志系统架构奠定了更灵活的基础。未来可以考虑：

这一改进体现了 Paimon 社区对实际生产需求的快速响应能力，也展示了项目在流批一体存储领域的持续创新。

登录后查看全文