Delta-rs项目中的Spark历史记录反序列化问题解析

2025-06-29 12:20:52作者：毕习沙Eudora

背景介绍

在Delta Lake生态系统中，delta-rs作为Rust实现的核心组件，与Spark生态系统的兼容性至关重要。近期发现一个关键兼容性问题：当使用delta-rs执行FSCK修复操作后，Spark无法正确读取表的历史记录。

问题本质

问题的核心在于delta-rs在执行修复操作时，对"files_removed"字段的序列化方式与Spark的预期不符。delta-rs将该字段输出为JSON数组格式：

"files_removed":["file1.parquet", "file2.parquet"]

而Spark的历史记录解析器期望该字段为字符串类型。这种格式不匹配导致Spark在尝试反序列化历史记录时抛出异常：

com.fasterxml.jackson.databind.exc.MismatchedInputException: 
Cannot deserialize value of type `java.lang.String` from Array value

技术影响分析

这一问题会影响所有同时使用delta-rs和Spark处理Delta表的场景，特别是在以下工作流中：

使用delta-rs执行表修复操作
后续使用Spark读取表历史记录
基于历史记录的Spark流处理作业

虽然delta-rs的实现从协议规范角度是正确的，但从实际生态系统兼容性考虑，与Spark保持一致的序列化格式更为重要。

解决方案

修复方案相对明确：将"files_removed"字段从数组格式改为字符串格式。这与之前针对optimize操作的修复方案类似，保持了修复操作与Spark的兼容性。

最佳实践建议

对于混合使用delta-rs和Spark的环境，建议：

关注delta-rs的版本更新，及时应用相关修复
在关键操作前后验证历史记录的可用性
考虑在CI/CD流程中加入历史记录读取的测试用例

总结

这个案例再次证明了在开源生态系统中，不同组件间的兼容性至关重要。虽然严格遵循协议规范很重要，但在实际应用中，与主流生态系统的兼容性往往需要优先考虑。delta-rs团队对此类问题的快速响应展现了他们对生态系统兼容性的重视。

delta-rs

A native Rust library for Delta Lake, with bindings into Python

项目地址：https://gitcode.com/gh_mirrors/de/delta-rs

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

140

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

556

111