Apache Iceberg 在 PySpark 与 Nessie 集成中的数据读取问题分析

2025-06-09 22:25:52作者：蔡丛锟

项目地址：https://gitcode.com/gh_mirrors/iceberg5/iceberg

问题背景

Apache Iceberg 是一种开源的表格式，旨在解决大数据生态系统中的表管理问题。近期在 Iceberg 1.7.1 版本中发现了一个关键问题，当与 PySpark 和 Nessie 集成使用时，会出现数据读取不正确和 JVM 崩溃的情况。

问题现象

在特定环境下，用户发现以下异常行为：

数据读取不正确：查询结果与底层 Parquet 文件中的实际数据不符，特别是在某些分区条件下会返回错误的结果集。
JVM 崩溃：执行某些查询时会触发 SIGSEGV 错误，导致 Spark 执行器崩溃。崩溃日志显示问题主要发生在 JVM 的并发哈希表操作和内存管理相关代码中。

环境配置

问题出现在以下技术栈组合中：

硬件架构：aarch64
Java 版本：17.0.13+11
Spark 版本：3.5.4
Iceberg 版本：1.7.1
Nessie 版本：0.101.2
运行环境：AWS EKS

问题复现步骤

创建源表和目标表，均使用 Iceberg 格式并设置特定分区策略
执行 INSERT OVERWRITE 操作将数据从源表写入目标表
验证数据时发现：
- Parquet 文件中的数据是正确的
- 但通过 Spark SQL 查询返回的结果不正确
- 某些查询会触发 JVM 崩溃

技术分析

从现象来看，问题可能涉及以下几个层面：

内存管理问题：JVM 崩溃日志显示问题发生在内存访问和并发哈希表操作中，表明可能存在内存访问越界或并发控制问题。
数据序列化/反序列化：由于底层文件数据正确而查询结果错误，问题可能出现在数据从存储层到内存的转换过程中。
特定分区条件触发：问题只在特定分区条件下出现，表明可能与分区剪枝或谓词下推优化相关。
架构兼容性：问题在 aarch64 架构上出现，可能与平台特定的内存对齐或指令集优化有关。

解决方案

该问题已在 Iceberg 1.8.0 版本中得到修复。对于使用 1.7.1 版本的用户，建议采取以下措施：

升级到 Iceberg 1.8.0 或更高版本
如果暂时无法升级，可以尝试：
- 调整查询方式，避免触发问题的特定查询模式
- 增加 JVM 内存参数
- 检查并优化分区策略

经验总结

这个案例提醒我们，在大数据组件集成时需要注意：

版本兼容性：特别是当使用多个相互依赖的组件时
平台差异：不同硬件架构可能表现出不同行为
数据验证：不能仅依赖查询结果，需要定期验证底层文件数据
错误监控：建立完善的错误监控机制，及时发现类似的内存访问问题

对于大数据开发者来说，理解底层存储格式与查询引擎之间的交互原理至关重要，这有助于快速定位和解决此类复杂问题。

项目地址：https://gitcode.com/gh_mirrors/iceberg5/iceberg

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统