Apache Iceberg 中 partial-progress.max-failed-commits 配置的缺陷分析与解决方案

2025-06-09 04:29:03作者：田桥桑Industrious

在 Apache Iceberg 1.7.1 版本中，我们发现了一个关于 partial-progress.max-failed-commits 配置的重要缺陷。这个配置原本用于控制部分进度重写操作中允许的最大失败提交次数，但在特定场景下会出现误判情况。

问题背景

Apache Iceberg 提供了数据文件重写功能，允许用户通过 RewriteDataFiles 操作优化表的数据布局。为了处理大规模重写操作，Iceberg 引入了部分进度机制，将重写操作分解为多个较小的提交。其中两个关键配置参数是：

当前实现中存在一个逻辑缺陷：系统通过计算 maxCommits - succeededCommits 来获取失败提交数，而不是直接统计实际的失败提交次数。这种计算方式在以下场景会产生问题：

当实际需要重写的文件组数量少于配置的 maxCommits 值时，系统会自动减少实际提交次数。然而，失败提交数的计算仍然基于原始的 maxCommits 配置值，导致误报失败次数超过阈值。

在实际应用中，我们观察到以下典型现象：

问题的根源在于 RewriteDataFilesSparkAction 类的实现逻辑：

系统直接从配置中获取 maxCommits 值
计算文件组分配时使用 IntMath.divide(ctx.totalGroupCount(), maxCommits, RoundingMode.CEILING)
当 ctx.totalGroupCount() < maxCommits 时，实际提交次数会少于配置值
但错误处理仍然基于原始配置值计算失败次数

正确的实现方式应该是：

这种改进方案更符合实际业务场景，能够准确反映重写操作的执行状态。

该问题主要影响以下场景：

在使用 Iceberg 的重写功能时，建议：

该问题已在社区得到重视，并提交了修复方案。用户在使用部分进度重写功能时应当注意这一潜在问题，特别是在文件组数量较少的情况下。

登录后查看全文