Trino项目Iceberg表DELETE操作后数据一致性问题分析

2025-05-21 05:57:17作者：毕习沙Eudora

问题背景

在Trino数据库项目的最新版本升级过程中（从v468升级到v469及以上版本），用户报告了一个严重的数据一致性问题：当对Iceberg格式的表执行DELETE操作后，系统会出现异常的数据删除行为。这个问题主要出现在使用HDFS存储的场景中，而在S3兼容存储上表现正常。

问题现象

用户反馈的主要异常表现包括：

执行带条件的DELETE语句时，不仅删除了符合条件的数据，还会随机删除同一分区内不符合条件的数据记录
在分区表场景下，删除操作会影响非目标时间范围的数据（如删除2024年12月数据时，会连带删除1-11月的部分数据）
使用Spark执行相同删除操作时行为正常，表明问题特定于Trino实现
该问题在v468版本不存在，从v469开始出现，持续影响到v471版本

技术分析

从技术实现角度看，这个问题可能涉及以下几个关键方面：

Iceberg MOR机制实现

Iceberg采用Merge-on-Read（MOR）机制来处理数据更新和删除操作。当执行DELETE时，系统不会直接修改原始数据文件，而是生成删除标记文件（delete files）。在读取时，Trino需要正确合并基础数据文件和删除标记文件以得到正确结果。

版本差异分析

v468版本工作正常而v469+出现问题的现象表明，可能是在以下方面的修改引入了缺陷：

删除谓词下推逻辑的变更
分区剪枝优化器的调整
对HDFS文件系统特定实现的处理逻辑变化
Iceberg格式版本兼容性处理

存储系统差异

问题在HDFS上重现而在S3存储上正常，提示可能与以下因素相关：

HDFS文件系统API的特定行为
文件锁机制的实现差异
元数据缓存处理方式不同

问题复现

通过以下步骤可以稳定复现该问题：

创建测试表并导入数据

CREATE OR REPLACE TABLE iceberg.schema.table
WITH(
    format = 'PARQUET',
    partitioning = ARRAY['year(created_at)']
) AS (
SELECT
    1000000 + rn1 * 10 + rn2 AS order_id,
    from_unixtime(
        1704067200 + CAST(rand() * 31622400 AS BIGINT)
    ) AS created_at,
    uuid() as user_id
FROM UNNEST(SEQUENCE(1, 10000)) AS t1(rn1)
CROSS JOIN UNNEST(SEQUENCE(0, 1000)) AS t2(rn2)
);

执行条件删除

DELETE FROM iceberg.schema.table
WHERE created_at >= timestamp'2024-10-10 00:00:00.000';

验证数据一致性

SELECT
    date(date_trunc('month', created_at)) as month,
    count(*)
FROM iceberg.schema.table
GROUP BY 1
ORDER BY 1 DESC;

影响评估

该问题属于严重的数据一致性问题，会导致：

数据丢失风险：不符合条件的数据被意外删除
数据质量下降：报表和查询结果不准确
系统可靠性受损：用户对Trino的信任度降低

临时解决方案

对于受影响的用户，建议：

暂时回退到v468版本
对于关键删除操作，使用Spark作为替代方案
加强数据备份和验证机制

总结

Trino在v469及以上版本中出现的Iceberg表DELETE操作异常是一个需要高度重视的数据一致性问题。开发团队应优先调查HDFS特定路径下的MOR实现逻辑，特别是与删除谓词处理和分区剪枝相关的代码变更。用户在生产环境升级前应充分测试DELETE操作的数据一致性，避免潜在的数据丢失风险。

trino

Official repository of Trino, the distributed SQL query engine for big data, formerly known as PrestoSQL (https://trino.io)

项目地址：https://gitcode.com/gh_mirrors/tr/trino

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Python

2.25 K

677