Fury序列化框架中的大对象反序列化NullPointerException问题分析

2025-06-25 14:30:42作者：裴麒琰

问题背景

在Apache Fury这个高性能Java序列化框架的使用过程中，开发者报告了一个关于大对象反序列化时出现的NullPointerException问题。这个问题发生在处理包含大量元素的数据结构时，如包含50万个元素的ArrayList和HashMap，或者包含500万个元素的数组。

问题现象

当尝试序列化并随后反序列化大型数据结构时，框架会抛出以下异常：

org.apache.fury.exception.DeserializationException: Deserialize failed, read objects are: [null]
Caused by: java.lang.NullPointerException
    at org.apache.fury.resolver.ClassResolver.getOrUpdateClassInfo

异常表明在反序列化过程中，当尝试获取或更新类信息时出现了空指针异常。

问题复现

问题可以通过以下两种测试用例复现：

大型集合测试：序列化包含50万个元素的ArrayList和HashMap，然后进行反序列化
大型数组测试：序列化包含500万个元素的HashMap数组、long数组和int数组，然后进行反序列化

技术分析

根本原因

这个问题的根本原因在于Fury框架的ClassResolver组件在处理大对象时的类信息缓存机制存在问题。当处理大量对象时，类信息缓存可能被错误地清除或覆盖，导致后续反序列化时无法正确获取类信息。

具体来说，在ClassResolver.getOrUpdateClassInfo方法中，当尝试读取已序列化的类信息时，由于某些内部状态不一致，导致无法正确获取类信息引用，从而抛出NullPointerException。

影响范围

这个问题主要影响以下场景：

处理包含大量元素的数据结构
连续序列化和反序列化多个大型对象
使用引用跟踪(refTracking)和兼容模式(CompatibleMode)的配置

解决方案

该问题已被项目维护者在提交6e4d8a0中修复。修复方案主要涉及优化ClassResolver的类信息缓存机制，确保在处理大量对象时能够正确维护类信息的引用关系。

最佳实践

为了避免类似问题，开发者在使用Fury框架处理大型数据结构时，可以考虑以下建议：

分批处理：将超大型数据结构分批序列化和反序列化
监控内存使用：注意JVM内存配置，确保有足够堆空间处理大型对象
版本升级：及时升级到包含此修复的Fury版本
性能测试：在生产环境使用前进行充分的性能测试和压力测试

总结

这个案例展示了高性能序列化框架在处理极端情况（如超大对象）时可能面临的挑战。Fury团队通过及时修复这个问题，进一步提高了框架的稳定性和可靠性。对于使用者来说，理解框架的局限性并在设计系统时考虑这些边界情况，是构建健壮应用的关键。

fory

A blazingly fast multi-language serialization framework for idiomatic domain objects, schema IDL, and cross-language data exchange.

项目地址：https://gitcode.com/gh_mirrors/fu/fory

登录后查看全文