Apache Fury序列化框架中Map数据结构的序列化问题分析

2025-06-25 05:34:31作者：宗隆裙

Apache Fury作为一款高性能的Java序列化框架，近期在Map数据结构的序列化处理上出现了一些值得关注的技术问题。本文将深入分析这些问题现象、原因及解决方案。

问题现象

在Apache Fury 0.10.0版本中，当关闭代码生成功能（withCodeGen(false)）时，对包含复杂Map结构的对象进行序列化和反序列化操作会出现多种异常情况：

类型解析失败：当Map中包含不同类型元素时，反序列化过程中会抛出NullPointerException，提示"classInfo"为null而无法读取"serializer"字段。
字符串压缩异常：启用字符串压缩功能后，会出现"Unknown coder type"错误，表明字符串压缩处理逻辑存在问题。
集合类型混合问题：当Map中同时包含不同类型集合（如Map和List）时，会导致数组越界异常。

问题复现

通过简化测试用例可以稳定复现这些问题。例如，创建一个包含LinkedHashMap的对象，其中Map值包含字符串、整数和列表的混合类型：

public class Test {
    Map<String, Object> m = new HashMap<>();
    
    public static void main(String[] args) {
        Test a = new Test();
        a.m = new LinkedHashMap<>();
        a.m.put("a", Map.of("a", "1", "b", 1, "c", List.of("c1", "c2")));

        Fury fury = Fury.builder()
                .withCodegen(false)
                .requireClassRegistration(false)
                .build();
        
        fury.deserialize(fury.serialize(a));
    }
}

此测试用例在关闭代码生成功能时会抛出异常，而开启代码生成功能时则能正常工作。

问题根源

经过分析，这些问题主要源于以下几个技术点：

类型信息处理不完整：在关闭代码生成的情况下，类型解析器未能正确处理Map中混合类型的元数据信息，导致后续反序列化时无法正确识别元素类型。
字符串压缩算法兼容性：字符串压缩处理逻辑未能全面考虑所有可能的编码类型，当遇到特定编码格式时无法正确解码。
集合类型切换处理不足：当Map中元素类型从一种集合类型变为另一种集合类型时，序列化数据中的类型标记处理不够健壮。

解决方案

Apache Fury开发团队已经针对这些问题发布了修复方案：

完善类型解析逻辑：改进了在无代码生成模式下的类型信息处理机制，确保能够正确记录和恢复Map中各种元素类型。
增强字符串压缩兼容性：扩展了字符串压缩处理逻辑，支持更多编码类型，同时优化了异常处理机制。
强化集合类型处理：改进了集合类型切换时的序列化/反序列化逻辑，确保不同类型集合能够正确转换。

最佳实践建议

对于使用Apache Fury的开发者，建议：

及时升级到最新版本，以获取这些问题的修复。
如果必须使用0.10.0版本，可以暂时采用以下规避措施：
- 保持代码生成功能开启（默认状态）
- 避免在Map中混合使用不同类型的集合
- 暂时禁用字符串压缩功能
对于复杂的对象图，考虑实现自定义序列化器以获得更好的控制和性能。

总结

Apache Fury作为高性能序列化框架，在处理复杂数据结构时展现了其强大能力，但也面临着各种边界条件的挑战。这次Map序列化问题的发现和解决过程，体现了开源社区协作的力量和框架持续完善的决心。开发者在使用时应当关注版本更新，合理配置序列化选项，以充分发挥框架优势。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。